パソコンあれこれ: 中国語の簡体字・繁体字OCRフリーソフト「尚書七号OCR」の使い方

2009年3月10日火曜日

中国語（簡体字・繁体字）の印刷物をスキャナで取り込み、中国語認識OCR無料ソフトでテキスト化する方法です。
中国語認識OCRソフトは「尚書七号OCR」と言う海外製のフリーソフトを使用しますが、今のところWindows XPだけで動作しております。
なお、この使用に当たっては、Microsoft AppLocale Utilityのインストールが前提になります。
注：バーチャルマシン内にインストールするとか問題が起きたとき元に戻せるようにしてから進めて下さい。
（１）ダウンロード
Yahoo' China（http://cn.yahoo.com/）で「尚書七号」と入れて検索

候補がたくさん出るので、そこからひとつ選択します。私は台湾のサイトからダウンロードしましたが、速度が遅く随分時間がかかりました。

（２）ダウンロードしたら適当なフォルダに解凍します。（下図は解凍後の全ファイル）

（３）Setup.exeをダブルクリック

（４）User Nameを入力、Company Nameは最低でも１文字（図は空白）を入れます。ここでNextをクリック

（５）インストールするフォルダーの指定（ここではC:\Program Files\ShanShu）

（６）Nextをクリック


（７）Finishをクリック

（８）Microsoft AppLocaleを選択

（９）参照をクリック

（１０）ocr60.exeを選択

（１１）次へをクリック

（１２）次へをクリック

（１３）リンクの説明に「尚書七号」などと入力し、完了をクリック

（１４）ショートカットが「すべてのプログラム／Microsoft AppLocale」内に登録されます。

（１５）「尚書七号」をクリックすると、次のダイアログが出るのでOKをクリック

（１６）メニューの一部

（１７）スキャナ選択


（１８）スキャン（図はCanonスキャナ付属のScanGear）

（１９）範囲選択して「開始識別（F8）」を選択


（２０）保存

（２１）ファイルの種類は「RTF文件」

（２２）ワードパットで開いた所

原文との比較：認識率100％と良い結果が出ました。これだと利用価値が十分あります。

※メモ
・繁体字の場合は「・繁混合」にするが「・」は簡の文字化けか。

・繁体字の場合（この本は「台湾の野菜／臺灣的蔬菜」のブロッコリーの部分）
認識結果内の文字は読みにくい。青の文字は認識していないので、白黒でスキャンした方がいい。

ワードパットの場合、サイズ変更やフォントの変更が出来ない。

コピペでワードに入れ、フォントをMingLiU、サイズを12ポイントにした場合

オリジナルとの比較
英文はイタリック体なので誤認識が多い。でもこの程度まで繁体字を認識してくれるとあり難い。
※Windows Vistaの場合はWindows XPでは出ない次のようなエラーが起きる。
この後スキャンまでは問題ないが、認識の段階でエラーがおき、使用不可となる。

※起動時に警告ウィンドウが出る。

AppLocale はUnicode非対応アプリケーションに対する一時的な解決策です。Unicode 非対応のアプリケーションを通常使用している場合は、システムの [Unicode 対応でないプログラム] の変数を適切に設定することを推奨します。
ここで設定を「中国語（簡体字）」に変更すると、Unicode対応になっていない日本語のソフトが影響を受けてしまうので、変更する必要ない。

※関連ページ
・Microsoft AppLocale Utilityをインストールしてフリー中国語OCRソフトを使う
 ・バーチャルマシンVMware Playerの使い方

パソコンあれこれ

中国語の簡体字・繁体字OCRフリーソフト「尚書七号OCR」の使い方

0 コメント:

京都近郊の貸別荘

カテゴリ

アーカイブ

人気の投稿