tesseract-ocrはHP社が始めて、現在はGoogleが手がけている。たぶん。
https://code.google.com/p/tesseract-ocr/
GoogleDriveの文字認識とかの基礎技術になっていると思います。
これをJAVAと.NETアプリで作ったのがVietOCRらしいです。
tesseract-ocrの技術がGUIで簡単に使えちゃいます。
http://vietocr.sourceforge.net/
JAVAがうまく動作しなかったので、.NETを試してみます。
てきとうに英文のスクリーンショットを読み込ませて、OCRをクリック。
英語はほとんど完璧です。スゴイ。
tesseract-ocrの言語データを入れれば日本語もOCR可能です。
VietOCR.NET-3.5\tessdataのフォルダにjpn.traineddataを置けばOKです。
次に日本語のOCRをやってみます。
微妙ですが、それなりに。
解像度を上げてみます。
うん、何かアレだ。さっきの方が良い結果。
解像度も適切に設定する必要があるみたいです。
数字や英文アルファベットのOCRだけなら、tesseract-ocrでもいけるかも。
日本語のOCRなら読取革命みたいなのを使った方が良さそう。
ここまで進化したのは素晴らしいので、さらなる精度アップを期待。
以上、自分勝手な感想でした。
2014/03/18
登録:
コメントの投稿 (Atom)
0 件のコメント:
コメントを投稿