Google スキャン文書も検索対象に・・
takaです。
Google BlogによるとGoogleは、OCRを使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功したそうだ。
Googleは、OCRの技術を使って、印刷媒体や画像上の文字や言葉をデジタルのテキストファイルに変換するようだ。
これからは、印刷物も、インターネット上のデジタル文字情報として認識でき、検索できるようになり、検索結果に現れた印刷物ドキュメントは、そのリンクをクリックするとPDFやHTML形式で読むことができるようになるらしい。
これによって、まだデジタル化されていない本や論文などの紙媒体が検索結果として得られるとしたら、とても大きな変化と言えます。
これには、膨大な処理能力と高度な画像認識技術が必要でしょう。
この難しい問題にチャレンジし解決策を見出したGoogleは、流石です。
でも反面、
OCRを使って印刷文書をテキストデータに変換する技術は、文字認識の精度がいつも問題になります。
アルファベットは、比較的単純であるが、日本語や中国語などの漢字系の文字は、複雑で文字数も多い。
はたして認識できるのでしょうか?
昔よりは進歩しているとは言え、現在のOCR技術では日本語の正確なテキスト化は難しいと思われます。
いつか日本語もある程度の精度で認識できるような時代がくるのでしょうか?
みなさんは、どう思われますか?

ネットインパクトでは、格安なCMSやWordpressを利用したウェブサイトの制作から運営管理も自社で簡単にできるショッピングサイトの構築も行っています。ご相談・お見積りは無料です。お気軽にお問合わせください。
お手頃価格で結果の出るホームページをつくります。さまざまな業種での制作実績がございます。はじめてウェブサイトをつくる方からネット販売をはじめたい方までお客様のニーズに合わせたホームページを低価格で構築致します。
さまざまな業種のWEBサイトを作成。ホームページの企画から制作、検索エンジン上位表示まで一貫した制作体制で、WEBビジネスを支援します。

