OCR は、画像内のテキストの自動認識を実現させる機能です。データの抽出を容易にしてデータ検出を強化します。OCR 機能は高画質の画像に最適化されており、さまざまな言語で利用可能です。手書きコンテンツについては、いくつかの考慮事項があります。
注:OCR は、高解像度画像内のタイプされた文字向けに最適化されています。画質が低い場合や手書きの内容では、認識精度が低下する可能性があります。
OCR 精度のためのベストプラクティス
画像の解像度
- 推奨:1024 x 768 ピクセル以上
- 最低:640 x 480 ピクセル(約 300,000 ピクセル)
- 解像度の低い画像では、抽出されたテキストが部分的または不正確である場合があります。
DPI(ドット毎インチ)
- 推奨:300 DPI 以上
- 300 DPI 未満のスキャン画像では、読み取り性能が低下する可能性があります。
サポートされているファイルの種類
- JPG、JPEG、PNG
- 圧縮アーティファクトによって認識精度が低下する可能性があるため、ファイルが過度に圧縮されないようにしてください。
画像の鮮明さ
- 背景ノイズが最小限に抑えられた、明るくシャープな画像を使用します。
- 影、強い光、角度の歪みを避けます。
- 文字がグラフィックや複雑なパターンと重複しないようにします。
言語サポート
OCR は複数の言語に対応しているため、多言語のデータソースの間で幅広くデータ検出を適用できるようになります。
手書きへの対応
OCR による手書き文字の処理は、最善の努力に基づきます。処理の結果は、以下の条件によって大きく異なる場合があります。
- 手書きの鮮明さ
- 一貫性とスタイル
- 言語または使用されている文字種