AI-OCRは、従来のOCRと何が違うのか?


コンピュータシステムで、OCRが活用されはじめて既に半世紀以上を経過しています。コンピュータ処理するためには、紙のアナログデータであってもデジタルデータに変換をする必要があり、人が判断してPCに入力する作業を軽減させる目的でOCRの存在意義は大きいです。
しかしながら、くせが強い手書き文字は、人でさえ認識しづらいものが多く従来のOCR技術では文字変換することが無理でした。それが、AI-OCRの登場により、手書きの文字でもかなりの確率で変換が可能になってきました。

AI-OCRを使用すれば、紙データを扱う業務でのデジタル化においてかなりの効率化が図れるようになり、加えてAI-OCRとのAPI連携により、RPAツールや、EAI/ETLツールなどと組み合わせで多くの業務プロセスの自動化も実現できるようになりました。これらは、DXの事例として多くの業種で業務効率化の成功を収めています。
ツールによって異なりますが、従来のOCRとAI-OCRとの違いは、一般的にはまず文字認識の精度が大きく異なります。OCRで文字変換できるのが半分程度であれば、かえって人が介入する手間が増えてしまうので、業務での使用するには無理がありました。ですがAI-OCRは、認識精度が90%以上期待できるとあって、実務で使用できる製品が多くなりました。
従来のOCRは、入力するアナログデータの中でどの部分を認識すべきか、文字が在る位置の場所を事前に指定することでが必要でした。そのため、その業務に特化した定型フォーマットの用紙を使用することを前提とするケースがほとんどでした。
一方、多くのAI-OCRは、非定型フォーマットのデータであっても対応しており、事前登録なしでも、どのパターンの用紙なのかの選別が可能です。座標などの位置を事前に指定しておかなくても、文字や罫線、図形などを認識するので、どの業務のどんな用紙の入力データなのかも判別してくれるため、OCRに読み込ませる前に行っていた用紙の種類によって仕分けする面倒な作業さえ自動化することが可能になります。加えて、手書きの取り消し二重線の文字は読み飛ばしたり、罫線をはみ出ている文字も判別したりと、従来人が判断しなければ無理だったイレギュラーなケースもかなりの部分で変換が可能になります。

これらは、従来のOCRが、指定された場所を1文字づつ認識して該当するフォントの文字パターンと比較して判別していたのに対し、AI-OCRがまるで人間と同じように、画像データを全体でとらえながら、文字を拾い出し、AIの学習によって、さも内容を理解しているかのごとく文字構成として一番使用確率の高い文字を選び出しているため、カタカナの「カ」や、漢字の「力」などの紛らわしい文字であっても最適な変換が可能となります。これらは、もちろんビッグデータをもとにしたデープラーニングによるおかげですが、教師なし学習が可能なGAN(敵対的生成ネットワーク)等のアルゴリズムも使用されているため、必ずしも元になる教師データを膨大に容易しないと学習できないという時代ではなくなりました。AI-OCRでは、さも文脈を理解しているように、表や図の内容を適切に認識して抽出することができるケースなどもあります。自然言語に対応したAIは、文字抽出の変換に加え、他の言語へ翻訳しながら出力が可能なツールやサービスもあるようです。

AI-OCRの多くはAPIが提供されているため、上手く変換できたデータを、RPAで業務システムに自動登録したり、EAI/ETLツールによってデータベースに自動的にロードしたりすることも可能です。これにより、人はエラー抽出したデータのみ修正すればよいので、かなり多くの業務プロセスの自動化を実現できます。エラーパターンも知識ベースに蓄積していく仕組みにすれば、さらに精度も作業効率も上がります。
ChatGPTのような汎用的な生成AIが注目去れている中、役割が限定しているAI-OCRのようなAIを業務改善に取り入れることは、即効性の高いBPRの実現ができるので検討してみる価値がある業務はきっと多いことでしょう。


AI-OCRは、従来のOCRより遥かにBPRに適している


AI-OCR , RPA , EAI , BPR