OCRに関する考察20210102
実際に使えるかどうか分からないが、ひな形(エクセル・マクロファイル)を作成したので、備忘録メモ。(こちらは素人)
状況:
今まで、LAN経由で、エクセルマクロで作成したデータをエクセルファイルに書き込んでデータベースにしていた。
(\\○○\××\data.xlsxみたいな)
定型的な報告など複数の人に書き込んでもらい便利だった。(紙の報告以外にデータを作成して書き込んでいたので便利)
今後:(検討内容)
もしかしたら、LAN経由で書き込みが使えなくなる恐れがあったので、紙の報告をスキャナで読み取る方法を検討。
作成:
(0)市販のスキャナとOCRソフト準備(読取革命ver.15)
(OCRソフトはネット環境でなくても使えるようにしたかったため。解像度300dpi(仮)。)
読取革命は、「標準モード、かんたん認識、伝票を読み込めますの設定」で使用。
(当該部分だけ読み込むようにしたかったが、レイアウトで認識させると微妙な違いはうまく文字認識できずあきらめた。)
(1)紙の報告の下部にOCR用の欄つけた新たなエクセルファイルを作成。
(文字が読めない恐れが多々あるので、OCR用欄は表にしてなるべく数字などにした。)
(文字化けしてもいい日本語はあるが、重要なものは数字などに置き換え(しかし数字も文字化けすることあり))
(2)読み込んだOCRデータをデータベースに移せるよう、補正するエクセルマクロを別途作成。
(表がうまく取れない場合のエラー設定や読み取れても文字化けしてうまくできない補正ミスなどのエラートラップを作成)
試験:
試してみると「1」が「ト」に認識されるなど、取り込み時点での不安が出た。
(実際、使用しようとすれば、毎日、取り込み作業(ミスチェック)でかなり時間が取られると思われる)
(ネットでも記事を見たが、タナカ(田中)が夕日の「夕」で「夕」ナカと認識されることもあるらしい)
考え:
結局、取り込んだデータの内容の確認が重要で、単純なOCR任せでなく、いかに人のチェックを効率化できるかが問題かなと思った。
少なくとも、上記OCRソフトでは認識率が高くても、誤認識はかなりの割合で発生することが分かった。
認識しやすい文字でOCR用欄を作る、または、誤認識した場合自動で補正させるなど、マクロを追加修正していくことはできるが、どんなパターンで誤認識するかは、使ってみないと分からないと思った。