Search

2014/03/18

tessarctのOCR機能をGUIで使う:VietOCR

tesseract-ocrはHP社が始めて、現在はGoogleが手がけている。たぶん。
https://code.google.com/p/tesseract-ocr/
GoogleDriveの文字認識とかの基礎技術になっていると思います。

これをJAVAと.NETアプリで作ったのがVietOCRらしいです。
tesseract-ocrの技術がGUIで簡単に使えちゃいます。
http://vietocr.sourceforge.net/

JAVAがうまく動作しなかったので、.NETを試してみます。
てきとうに英文のスクリーンショットを読み込ませて、OCRをクリック。
英語はほとんど完璧です。スゴイ。

tesseract-ocrの言語データを入れれば日本語もOCR可能です。
VietOCR.NET-3.5\tessdataのフォルダにjpn.traineddataを置けばOKです。

次に日本語のOCRをやってみます。
微妙ですが、それなりに。



解像度を上げてみます。
うん、何かアレだ。さっきの方が良い結果。
解像度も適切に設定する必要があるみたいです。

数字や英文アルファベットのOCRだけなら、tesseract-ocrでもいけるかも。
日本語のOCRなら読取革命みたいなのを使った方が良さそう。
ここまで進化したのは素晴らしいので、さらなる精度アップを期待。
以上、自分勝手な感想でした。

0 件のコメント:

コメントを投稿