デジカメで撮影した中国語(簡体字・繁体字)画像を無料でOCRするには

2009年3月14日土曜日

OCRと言えば一般的にはスキャナ使用ですが、デジカメでも可能です。ここでは中国語文字認識フリーソフト「尚書七号OCR」を使用して、小樽市指定歴史的建造物の案内板に書かれている中国語(繁体字、台湾)でやって見ます。
なお、この中国語OCRソフトはWindows XPでは正常に動作しますが、Wondows Vistaで行なうと文字認識の段階でエラーが置きてしまいます。従って、Windows Vistaで使おうとしたら、VMware Player等のバーチャルマシンでゲストOSにWindows XPをインストールする必要があります。
主な手順:
(1)Windows XPの「スタート メニュー/Microsoft AppLocale」内の尚書七号OCRを起動
(2)尚書七号OCRが起動し、デジカメを画像を読み込んだら範囲選択
(3)「文字認識」の言語を「簡繁混合」にします。
image
(4)範囲選択
image 
(5)「文字認識」をクリック
image
(6)RTFで保存
image
(6)保存したファイルをワードパットで起動
(Word 2003で開くと行内でなくテキストボックス内に入る)
image
(7)範囲選択し「コピー」
image
(8)ワード等のワープロに貼り付け
image 
(9)校正
数字、句読点の誤認識が多いのと、「設計」と言った漢字にも間違いがあるので直します。
image 
image
中国語(繁体字、台湾)IMEのSymbolを起動
ソフトキーボード上の,や。をクリックして正しい句読点に置き換えます。

image 
Word 2003を使用して完成した文書 
 image 
※関連ページ
Bloggerで作成した小樽歴史的建造物
VMware PlayerのゲストOSにWindows XPをインストール方法
中国語の簡体字・繁体字OCRフリーソフト「尚書七号OCR」の使い方
Microsoft AppLocale Utilityをインストールしてフリー中国語OCRソフトを使う

中国語の簡体字・繁体字OCRフリーソフト「尚書七号OCR」の使い方

2009年3月10日火曜日

中国語(簡体字・繁体字)の印刷物をスキャナで取り込み、中国語認識OCR無料ソフトでテキスト化する方法です。
中国語認識OCRソフトは「尚書七号OCR」と言う海外製のフリーソフトを使用しますが、今のところWindows XPだけで動作しております。
なお、この使用に当たっては、Microsoft AppLocale Utilityのインストールが前提になります。
注:バーチャルマシン内にインストールするとか問題が起きたとき元に戻せるようにしてから進めて下さい。
(1)ダウンロード
Yahoo' China(http://cn.yahoo.com/)で「尚書七号」と入れて検索
image
候補がたくさん出るので、そこからひとつ選択します。私は台湾のサイトからダウンロードしましたが、速度が遅く随分時間がかかりました。

(2)ダウンロードしたら適当なフォルダに解凍します。(下図は解凍後の全ファイル)
image
(3)Setup.exeをダブルクリック
image
(4)User Nameを入力、Company Nameは最低でも1文字(図は空白)を入れます。ここでNextをクリック
image
(5)インストールするフォルダーの指定(ここではC:\Program Files\ShanShu)
image
(6)Nextをクリック
image
image 
(7)Finishをクリック
image
(8)Microsoft AppLocaleを選択
image
(9)参照をクリック
image
(10)ocr60.exeを選択
image
(11)次へをクリック
image
(12)次へをクリック
image
(13)リンクの説明に「尚書七号」などと入力し、完了をクリック
image
(14)ショートカットが「すべてのプログラム/Microsoft AppLocale」内に登録されます。
image
(15)「尚書七号」をクリックすると、次のダイアログが出るのでOKをクリック
image 
(16) メニューの一部
image
(17)スキャナ選択
 image
image
(18)スキャン(図はCanonスキャナ付属のScanGear)
image
(19)範囲選択して「開始識別(F8)」を選択
image 
image
(20)保存
image
(21)ファイルの種類は「RTF文件」
image
(22)ワードパットで開いた所
image 
原文との比較:認識率100%と良い結果が出ました。これだと利用価値が十分あります。
image 
※メモ
・繁体字の場合は「・繁混合」にするが「・」は簡の文字化けか。
image 
・繁体字の場合 (この本は「台湾の野菜/臺灣的蔬菜」のブロッコリーの部分)
認識結果内の文字は読みにくい。青の文字は認識していないので、白黒でスキャンした方がいい。
 image
image 
  ワードパットの場合、サイズ変更やフォントの変更が出来ない。 
 image
コピペでワードに入れ、フォントをMingLiU、サイズを12ポイントにした場合
image 
オリジナルとの比較 
英文はイタリック体なので誤認識が多い。でもこの程度まで繁体字を認識してくれるとあり難い。 image
※Windows Vistaの場合はWindows XPでは出ない次のようなエラーが起きる。
この後スキャンまでは問題ないが、認識の段階でエラーがおき、使用不可となる。
image 
※起動時に警告ウィンドウが出る。
image  
AppLocale はUnicode非対応アプリケーションに対する一時的な解決策です。Unicode 非対応のアプリケーションを通常使用している場合は、システムの [Unicode 対応でないプログラム] の変数を適切に設定することを推奨します。
ここで設定を「中国語(簡体字)」に変更すると、Unicode対応になっていない日本語のソフトが影響を受けてしまうので、変更する必要ない。

※関連ページ
Microsoft AppLocale Utilityをインストールしてフリー中国語OCRソフトを使う
・バーチャルマシンVMware Playerの使い方

Microsoft AppLocale Utilityをインストールしてフリー中国語OCRソフトを使う

Microsoft AppLocale Utilityをインストールすると中国語版のソフトでも文字化けする事無く利用できるようになります。ここでは中国語OCRであるFeng-OCR(中国語)試用版でどうなるかを試して見ます。
■Microsoft AppLocale Utilityのダウンロード
(1)Microsoft AppLocale Utilityをダウンロードする前にインストールするパソコンが正規のMicrosoftソフトウェアであるかの確認が行なわれます。

image 
(2)コードを貼り付けてからダウンロード開始
image
(3)認証終了

image 

■Microsoft AppLocale Utilityのインストール

Microsoft AppLocale Utilityのインストール方法は、Windows XPとWindowx Vistaで手順が違います。
●Windows XP:ダウンロードしたファイルapploc.msiを開き、通常のインストール手順で進めていけばOKです。
●Windows Vista:コマンド プロンプトより、ダウンロードしたファイルを実行します。 
(1)「アクセサリ/ コマンド プロンプト」のアイコンを右クリックし「管理者として実行」を選択
 
image
(2)C:\Windows\system32> が表示
image
(3)cd の後にダウンロードしたファイルのフォルダパスを入力
image
※パスはそのファイルのショートカットを作り、プロパティのリンク先で分かります。
image 
apploc.msiをコマンドプロンプトのウィンドウにドラッグアンドドロップする方法もあるようですが、試していません。

(4)引き続きapploc.msiを入力して、Enterを押すと「セキュリティ警告」が出るので「実行」をクリック
image
(5)「Next」をクリック
image
(6)「I Agree」を選択し、「Next」をクリック
image
(7)「Next」をクリック
image
(8)「Close」をクリック
image 
※参考:Windows Vistaで通常のインストールで作業を進めたときのエラーメッセージ
image 

■Feng-OCRの登録
パソコン内にはFeng-OCR(中国語)試用版がインストールされているものとして話を進めます。

注:Feng-OCRはバーチャルマシン内にインストールするとか問題が起きたとき元に戻せるようにしてから進めて下さい。
(1)Microsoft AppLocaleを開いたら「次へ」をクリック
image
(2)「アプリケーションを起動する」にチェックを入れ、「参照」よりC:\Program Files\feng_ocr\Feng_ocr.exe(既定)を選択
image 
(3)「次へ」をクリック
image
(4)「リンクの説明」にアプリケーションの名前を入力して「完了」をクリック
image
■Feng-OCRの起動(Windows XP,Windows Vistaで動作)
(1)スタートメニュー内の「Feng_ocr中国版」をクリック
image
(2)非Unicodeアプリケーションに対するメッセージが出るので、そのまま「OK」をクリック
image
(3)Feng_OCRが起動したら「文件/打開図象文件」をクリック
image
(4)サンプルの「example1.bmp」を選択
image
(5)ズームツールで拡大し「全文」をクリック
image
(5)結果
精査はしていませんが、数字以外は大体合っているようです。
image
もし、Microsoft AppLocaleをインストールしない場合は次のように文字化けを起こします。
image
※関連ページ
中国語の簡体字・繁体字OCRフリーソフト「尚書七号OCR」の使い方
・バーチャルマシンVMware Playerの使い方