2011年01月15日

画像ファイルから文字を抽出する方法


 JPG形式などで保存された画像ファイルから文字情報を抽出する方法をご紹介します。

 海外旅行の旅先で見かけた説明書きある看板を写真に撮り、自宅に戻ってから文字として抽出し、WEB翻訳にかける、という使い方が可能です。実は、以下の方法を知っていると、旅先でメモを取らずに後で詳細な情報を復元できるのでとても便利です。また、WEB翻訳にかけたい時にも威力を発揮します。さらに、スキャナーで読み込んだファイルを文字認識する場合にとても役立ちます。

 もし、日本語で書かれた文字を抽出するのであれば、有料の「ADOBE ACROBAT PRO」を使うのが一番早いと思います。ちなみに、無料のACROBAT READERではできません。

【方法】

 [ADOBE ACROBAT PRO]のOCR機能を使って画像ファイルから文字列を抽出します。OCR機能だけのソフトも市販されていますが、文字認識の性能や使いかってから[ADOBE ACROBAT PRO]がお奨めです。

1.[ADOBE ACROBAT PRO]を起動し、[ファイル]⇒[開く]と進み、[ファイルを開く]ダイアログで、「ファイルの種類」を「全てのファイル(*.*)」にする。目的の画像ファイルを選択し[開く]をクリック。

image_extract1.gif


2.画像ファイルがpdfファイルとして読み込まれる。
  メニューバーの[文書]⇒[OCRテキスト認識]⇒[OCRを使用してテキストを認識]をクリック。

image_extract2.png


3.「テキスト認識」ダイアログが開くので、@ 認識するページの設定にチェックを入れ、A[編集]をクリック。すると[テキスト認識−設定]ダイアログが開くので、B[OCRの言語]の▼をクリックして言語を指定(下の例ではスペイン語を選択)。C[OK]、D[OK]と進む。

image_extract3.gif


4.これで、画像がテキストとして認識されるので、下の画像の手順に従い、WORD文書として保存。

image_extract4.gif


 以上です。

 原文が英語ならば、フリーのOCRソフトがあるのですが、日本語の場合は、よいフリーソフトが見あたりません。[ADOBE ACROBAT PRO]は、便利なソフトなので、購入しておいても良いのではないかと思います。

 以前のOCRソフトは、日本語認識機能に問題があったのですが、現在は全く問題なく認識してくれます。もちろん、画像が鮮明であるという条件下の話ですが。


posted by ネコ師 at 13:51 | Comment(1) | 役立つ知識(PC編) | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
記事に関係ないコメント、宣伝的なコメントは削除させていただきます。
私はGTTextソフトウェアを使用します。
(www.softocr.com)
Posted by Dave at 2012年08月02日 05:21
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
※ブログオーナーが承認したコメントのみ表示されます。

▲ このページのTOPに戻る