OCR の欠点

米国郵政公社は、光学式文字認識 (OCR) 技術を使用して、郵便物の住所を読み取ります。ただし、メールを OCR メール ソーターで読み取れるようにするには、アドレスとフォントを特定の方法でフォーマットする必要があります。 OCR ソフトウェアは、タイプされた文書または手書きの文書のスキャン画像を検索可能な電子テキストに変換するのに役立ちますが、アプリケーションを制限する欠点があります。
限定ドキュメント
OCR は、高品質のタイプされたドキュメントで最適に機能します。手書きの文書は、OCR ソフトウェアでは簡単に読み取ることができません。同様に、手書きに似た型付きフォントや非ラテン フォントは、OCR プロセス中に多くのエラーを引き起こします。ドキュメントのコントラストが低い、折り目がついている、または汚れている、または暗い場所でテキストと背景が類似している場合、OCR はうまく機能しない可能性があります。 OCR は、画像とテキストの両方を含むドキュメントでは困難です。スプレッドシートもより多くのエラーを生成します。
精度
100% 正確な OCR ソフトウェアはありません。エラーの数は、使用されているフォントなど、ドキュメントの品質と種類によって異なります。 OCR 中に発生するエラーには、文字の読み間違い、判読できない文字のスキップ、隣接する列のテキストや画像キャプションの混在などがあります。電子書籍を電子形式に変換する場合のように、高精度が必要な場合は、電子テキストのクリーンアップが必要になります。
回避策
OCR では、数字のゼロと大文字の「O」などの文字を区別するのが困難です。これを回避するには、ゼロを書き出すなどの特別な OCR フォントを使用できます。ただし、これは、アンケートなど、OCR を念頭に置いて作成されたドキュメントに対してのみ機能します。手書きのアンケートを作成する場合、研究者は各文字のボックスも使用します。
追加作業
元のドキュメントのスキャンされたイメージが高品質であっても、OCR テキストをクリーンアップするために追加の手順を実行する必要があります。 OCR によって作成されたエラーを修正するには、非常に労力がかかります。元の文書と電子テキストを手動で比較する必要があります。ドキュメントからテキストを入力するときにもエラーが発生しますが、OCR ステップをスキップした方が速い場合もあります。