中国語の簡体字・繁体字OCRフリーソフト「尚書七号OCR」の使い方

2009年3月10日火曜日

中国語(簡体字・繁体字)の印刷物をスキャナで取り込み、中国語認識OCR無料ソフトでテキスト化する方法です。
中国語認識OCRソフトは「尚書七号OCR」と言う海外製のフリーソフトを使用しますが、今のところWindows XPだけで動作しております。
なお、この使用に当たっては、Microsoft AppLocale Utilityのインストールが前提になります。
注:バーチャルマシン内にインストールするとか問題が起きたとき元に戻せるようにしてから進めて下さい。
(1)ダウンロード
Yahoo' China(http://cn.yahoo.com/)で「尚書七号」と入れて検索
image
候補がたくさん出るので、そこからひとつ選択します。私は台湾のサイトからダウンロードしましたが、速度が遅く随分時間がかかりました。

(2)ダウンロードしたら適当なフォルダに解凍します。(下図は解凍後の全ファイル)
image
(3)Setup.exeをダブルクリック
image
(4)User Nameを入力、Company Nameは最低でも1文字(図は空白)を入れます。ここでNextをクリック
image
(5)インストールするフォルダーの指定(ここではC:\Program Files\ShanShu)
image
(6)Nextをクリック
image
image 
(7)Finishをクリック
image
(8)Microsoft AppLocaleを選択
image
(9)参照をクリック
image
(10)ocr60.exeを選択
image
(11)次へをクリック
image
(12)次へをクリック
image
(13)リンクの説明に「尚書七号」などと入力し、完了をクリック
image
(14)ショートカットが「すべてのプログラム/Microsoft AppLocale」内に登録されます。
image
(15)「尚書七号」をクリックすると、次のダイアログが出るのでOKをクリック
image 
(16) メニューの一部
image
(17)スキャナ選択
 image
image
(18)スキャン(図はCanonスキャナ付属のScanGear)
image
(19)範囲選択して「開始識別(F8)」を選択
image 
image
(20)保存
image
(21)ファイルの種類は「RTF文件」
image
(22)ワードパットで開いた所
image 
原文との比較:認識率100%と良い結果が出ました。これだと利用価値が十分あります。
image 
※メモ
・繁体字の場合は「・繁混合」にするが「・」は簡の文字化けか。
image 
・繁体字の場合 (この本は「台湾の野菜/臺灣的蔬菜」のブロッコリーの部分)
認識結果内の文字は読みにくい。青の文字は認識していないので、白黒でスキャンした方がいい。
 image
image 
  ワードパットの場合、サイズ変更やフォントの変更が出来ない。 
 image
コピペでワードに入れ、フォントをMingLiU、サイズを12ポイントにした場合
image 
オリジナルとの比較 
英文はイタリック体なので誤認識が多い。でもこの程度まで繁体字を認識してくれるとあり難い。 image
※Windows Vistaの場合はWindows XPでは出ない次のようなエラーが起きる。
この後スキャンまでは問題ないが、認識の段階でエラーがおき、使用不可となる。
image 
※起動時に警告ウィンドウが出る。
image  
AppLocale はUnicode非対応アプリケーションに対する一時的な解決策です。Unicode 非対応のアプリケーションを通常使用している場合は、システムの [Unicode 対応でないプログラム] の変数を適切に設定することを推奨します。
ここで設定を「中国語(簡体字)」に変更すると、Unicode対応になっていない日本語のソフトが影響を受けてしまうので、変更する必要ない。

※関連ページ
Microsoft AppLocale Utilityをインストールしてフリー中国語OCRソフトを使う
・バーチャルマシンVMware Playerの使い方

0 コメント: