O OCR é uma funcionalidade que permite fazer o reconhecimento automático de texto em imagens, o que facilita a extração de dados para otimizar a descoberta de dados. A tecnologia OCR é otimizada para imagens de alta qualidade e está disponível em vários idiomas, embora tenha algumas limitações com relação a conteúdo escrito à mão.
Observação: o OCR é otimizado para reconhecer textos digitados em imagens de alta resolução. A eficácia do reconhecimento pode ser menos precisa com conteúdo escrito à mão ou de baixa qualidade.
Melhores práticas para precisão do OCR
Resolução de imagem
- Recomendado: pelo menos 1024 x 768 pixels
- Mínimo: 640 x 480 pixels (aproximadamente 300 mil pixels)
- A extração de texto pode ser parcial ou imprecisa em imagens com resolução mais baixa.
DPI (pontos por polegada)
- Recomendado: 300 DPI ou superior
- A qualidade de leitura pode ser reduzida em imagens digitalizadas com menos de 300 DPI.
Tipos de arquivos compatíveis
- JPG, JPEG, PNG.
- Certifique-se de que os arquivos não estejam excessivamente compactados, já que isso pode comprometer a precisão do reconhecimento.
Nitidez da imagem
- Use imagens bem iluminadas e nítidas, com mínimo ruído de fundo.
- Evite sombras, brilho ou ângulos inclinados.
- O texto não deve se sobrepor a gráficos ou padrões complexos.
Idiomas compatíveis
O OCR é compatível com vários idiomas, o que torna a descoberta de dados mais abrangente em fontes de dados multilíngues.
Compatibilidade com texto escrito à mão
O OCR processa textos escritos à mão sempre que possível. Os resultados podem variar bastante, a depender de:
- Clareza da escrita à mão
- Consistência e estilo
- Idioma ou escrita usada