OCRと言えば一般的にはスキャナ使用ですが、デジカメでも可能です。ここでは中国語文字認識フリーソフト「尚書七号OCR」を使用して、小樽市指定歴史的建造物の案内板に書かれている中国語(繁体字、台湾)でやって見ます。
なお、この中国語OCRソフトはWindows XPでは正常に動作しますが、Wondows Vistaで行なうと文字認識の段階でエラーが置きてしまいます。従って、Windows Vistaで使おうとしたら、VMware Player等のバーチャルマシンでゲストOSにWindows XPをインストールする必要があります。
主な手順:
(1)Windows XPの「スタート メニュー/Microsoft AppLocale」内の尚書七号OCRを起動
(2)尚書七号OCRが起動し、デジカメを画像を読み込んだら範囲選択
(3)「文字認識」の言語を「簡繁混合」にします。
(4)範囲選択
(5)「文字認識」をクリック
(6)RTFで保存
(6)保存したファイルをワードパットで起動
(Word 2003で開くと行内でなくテキストボックス内に入る)
(7)範囲選択し「コピー」
(8)ワード等のワープロに貼り付け
(9)校正
数字、句読点の誤認識が多いのと、「設計」と言った漢字にも間違いがあるので直します。
中国語(繁体字、台湾)IMEのSymbolを起動
ソフトキーボード上の,や。をクリックして正しい句読点に置き換えます。
Word 2003を使用して完成した文書
※関連ページ
・Bloggerで作成した小樽歴史的建造物
・VMware PlayerのゲストOSにWindows XPをインストール方法
・中国語の簡体字・繁体字OCRフリーソフト「尚書七号OCR」の使い方
・Microsoft AppLocale Utilityをインストールしてフリー中国語OCRソフトを使う
デジカメで撮影した中国語(簡体字・繁体字)画像を無料でOCRするには
2009年3月14日土曜日中国語の簡体字・繁体字OCRフリーソフト「尚書七号OCR」の使い方
2009年3月10日火曜日中国語(簡体字・繁体字)の印刷物をスキャナで取り込み、中国語認識OCR無料ソフトでテキスト化する方法です。
中国語認識OCRソフトは「尚書七号OCR」と言う海外製のフリーソフトを使用しますが、今のところWindows XPだけで動作しております。
なお、この使用に当たっては、Microsoft AppLocale Utilityのインストールが前提になります。
注:バーチャルマシン内にインストールするとか問題が起きたとき元に戻せるようにしてから進めて下さい。
(1)ダウンロード
Yahoo' China(http://cn.yahoo.com/)で「尚書七号」と入れて検索
候補がたくさん出るので、そこからひとつ選択します。私は台湾のサイトからダウンロードしましたが、速度が遅く随分時間がかかりました。
(2)ダウンロードしたら適当なフォルダに解凍します。(下図は解凍後の全ファイル)
(3)Setup.exeをダブルクリック
(4)User Nameを入力、Company Nameは最低でも1文字(図は空白)を入れます。ここでNextをクリック
(5)インストールするフォルダーの指定(ここではC:\Program Files\ShanShu)
(6)Nextをクリック
(7)Finishをクリック
(8)Microsoft AppLocaleを選択
(9)参照をクリック
(10)ocr60.exeを選択
(11)次へをクリック
(12)次へをクリック
(13)リンクの説明に「尚書七号」などと入力し、完了をクリック
(14)ショートカットが「すべてのプログラム/Microsoft AppLocale」内に登録されます。
(15)「尚書七号」をクリックすると、次のダイアログが出るのでOKをクリック
(16) メニューの一部
(17)スキャナ選択
(18)スキャン(図はCanonスキャナ付属のScanGear)
(19)範囲選択して「開始識別(F8)」を選択
(20)保存
(21)ファイルの種類は「RTF文件」
(22)ワードパットで開いた所
原文との比較:認識率100%と良い結果が出ました。これだと利用価値が十分あります。
※メモ
・繁体字の場合は「・繁混合」にするが「・」は簡の文字化けか。
・繁体字の場合 (この本は「台湾の野菜/臺灣的蔬菜」のブロッコリーの部分)
認識結果内の文字は読みにくい。青の文字は認識していないので、白黒でスキャンした方がいい。
ワードパットの場合、サイズ変更やフォントの変更が出来ない。
コピペでワードに入れ、フォントをMingLiU、サイズを12ポイントにした場合
オリジナルとの比較
英文はイタリック体なので誤認識が多い。でもこの程度まで繁体字を認識してくれるとあり難い。
※Windows Vistaの場合はWindows XPでは出ない次のようなエラーが起きる。
この後スキャンまでは問題ないが、認識の段階でエラーがおき、使用不可となる。
※起動時に警告ウィンドウが出る。
AppLocale はUnicode非対応アプリケーションに対する一時的な解決策です。Unicode 非対応のアプリケーションを通常使用している場合は、システムの [Unicode 対応でないプログラム] の変数を適切に設定することを推奨します。
ここで設定を「中国語(簡体字)」に変更すると、Unicode対応になっていない日本語のソフトが影響を受けてしまうので、変更する必要ない。
※関連ページ
・Microsoft AppLocale Utilityをインストールしてフリー中国語OCRソフトを使う
・バーチャルマシンVMware Playerの使い方
Microsoft AppLocale Utilityをインストールしてフリー中国語OCRソフトを使う
Microsoft AppLocale Utilityをインストールすると中国語版のソフトでも文字化けする事無く利用できるようになります。ここでは中国語OCRであるFeng-OCR(中国語)試用版でどうなるかを試して見ます。
■Microsoft AppLocale Utilityのダウンロード
(1)Microsoft AppLocale Utilityをダウンロードする前にインストールするパソコンが正規のMicrosoftソフトウェアであるかの確認が行なわれます。
(2)コードを貼り付けてからダウンロード開始
(3)認証終了
■Microsoft AppLocale Utilityのインストール
Microsoft AppLocale Utilityのインストール方法は、Windows XPとWindowx Vistaで手順が違います。
●Windows XP:ダウンロードしたファイルapploc.msiを開き、通常のインストール手順で進めていけばOKです。
●Windows Vista:コマンド プロンプトより、ダウンロードしたファイルを実行します。
(1)「アクセサリ/ コマンド プロンプト」のアイコンを右クリックし「管理者として実行」を選択
(2)C:\Windows\system32> が表示
(3)cd の後にダウンロードしたファイルのフォルダパスを入力
※パスはそのファイルのショートカットを作り、プロパティのリンク先で分かります。
apploc.msiをコマンドプロンプトのウィンドウにドラッグアンドドロップする方法もあるようですが、試していません。
(4)引き続きapploc.msiを入力して、Enterを押すと「セキュリティ警告」が出るので「実行」をクリック
(5)「Next」をクリック
(6)「I Agree」を選択し、「Next」をクリック
(7)「Next」をクリック
(8)「Close」をクリック
※参考:Windows Vistaで通常のインストールで作業を進めたときのエラーメッセージ
■Feng-OCRの登録
パソコン内にはFeng-OCR(中国語)試用版がインストールされているものとして話を進めます。
(1)Microsoft AppLocaleを開いたら「次へ」をクリック
(2)「アプリケーションを起動する」にチェックを入れ、「参照」よりC:\Program Files\feng_ocr\Feng_ocr.exe(既定)を選択
(3)「次へ」をクリック
(4)「リンクの説明」にアプリケーションの名前を入力して「完了」をクリック
■Feng-OCRの起動(Windows XP,Windows Vistaで動作)
(1)スタートメニュー内の「Feng_ocr中国版」をクリック
(2)非Unicodeアプリケーションに対するメッセージが出るので、そのまま「OK」をクリック
(3)Feng_OCRが起動したら「文件/打開図象文件」をクリック
(4)サンプルの「example1.bmp」を選択
(5)ズームツールで拡大し「全文」をクリック
(5)結果
精査はしていませんが、数字以外は大体合っているようです。
もし、Microsoft AppLocaleをインストールしない場合は次のように文字化けを起こします。
※関連ページ
・中国語の簡体字・繁体字OCRフリーソフト「尚書七号OCR」の使い方
・バーチャルマシンVMware Playerの使い方