OCR. Estas três letras – que significam em inglês Optical Character Recognition, ou Reconhecimento Ótico de Caracteres em bom português – já foram a promessa de um sonho: o fim da digitação manual de documentos digitalizados. Quanto desse sonho se tornou realidade? Vamos analisar isso.
É inegável que a tecnologia OCR evoluiu incrivelmente desde que foi concebida. Sabe quando foi isso? 1.914. Pois é! Há mais de um século. Hoje ela brilha em áreas como:
- Extração de textos curtos em praças de pedágio, placas de rua, números de casas e outros cenários urbanos;
- Extração de textos em formulários estruturados;
- Extração de textos de livros com impressão tipográfica;
- Qualquer cenário onde o ambiente e o contexto são ativamente controlados.
É um fato que essas aplicações cobrem uma vastidão de processos de negócio. Nesses processos, o uso de OCR não só é uma demanda, mas tornou-se praticamente obrigatório, dada a economia e a escala que propicia. Nos cenários acima, OCR é um sonho realizado.
No entanto, a área da saúde tem algumas peculiaridades.
Por exemplo, mesmo que uma instituição de saúde possa controlar seus formulários para ter um layout que favoreça OCR, há um sem fim de documentos que chegam todos os dias ao PA que simplesmente fogem a qualquer padrão estipulado internamente. São documentos pessoais, laudos, formulários externos, receitas, pedidos, termos e um sem fim de documentos que não se enquadram no quesito “formulários estruturados”.
A saúde também trabalha com muitos documentos manuscritos, sejam em letra de forma ou cursiva. Deixando de lado a questão estética da caligrafia, boa ou ruim, a escrita humana é uma variável praticamente infinita.
Outro aspecto peculiar da saúde é que o ponto de entrada desses documentos externos ocorre exatamente no ponto mais frágil da instituição: o PA. Tanto scanners quanto operadores do PA não possuem os mesmos requisitos técnicos que, por exemplo, o SAME. O PA é também onde o tempo é mais crítico. Cada segundo conta.
Todos esses fatores compõem a tempestade perfeita para o OCR: fatores ambientais heterogêneos, baixa especialização e tempo exíguo. Quando estas características estão presentes em alto grau, é o calcanhar de aquiles do OCR que brilha: a confiabilidade – no caso, a ausência dela.
Diferentemente de precisão, que é uma medida estatística, a confiabilidade é uma métrica determinística. Ou o OCR produz um resultado condizente ao original, ou qualquer coisa produzida é simplesmente inválida. Já uma precisão de 90% pode ser totalmente aceitável, desde que a confiabilidade dos resultados não seja prejudicada.
Um exemplo:
- Texto Impresso: 1234567890
- Texto no OCR: I234567B9O
No exemplo acima, a troca do “1” pelo “I”, do “8” pelo “B” e do “0” pelo “O” produz um resultado com precisão de 70% e confiabilidade zero. Por outro lado, se o OCR não tivesse produzido nada, a precisão teria sido 0%, mas a confiabilidade seria total, pois não teríamos um resultado, em vez de ter um resultado errado. Nesse caso, a ausência de resultado é ótima, pois nos dá a chance de corrigi-lo.
E se a sentença que teve caracteres trocados for um código de paciente ou prontuário? Pior: e se existir outro paciente ou prontuário com o código trocado? Sim, o documento de um paciente VAI para o registro de outro paciente, sem que tenhamos tempo de revisar o erro. A isso damos o nome de “falso positivo”.
Na saúde, as características dos processos de negócio cruciais para seu funcionamento propiciam os falsos positivos.
A Promessa da IA
Nos últimos 10 anos, vimos a Inteligência Artificial passar de tecnologia emergente para o uso mais cotidiano de modo exponencial. E essa curva só vai se acentuar.
Essa nova fronteira tecnológica tem muito a oferecer ao OCR, apesar de ainda não produzir resultados confiáveis. É uma questão de tempo. Em breve – poucos anos – contaremos com OCR confiável para uso na saúde, ao menos para caracteres tipográficos.
Mas a realização desse sonho não será gratuita. As principais – e mais evoluídas – ferramentas para OCR são dominadas pelas Big Techs. Enquanto o preço do OCR em si já caiu vertiginosamente por causa da escala proporcionada por esses players, o preço agora migrou para outro local: a privacidade.
Vejamos o que os termos de serviço dos três principais serviços de OCR em nuvem declaram em relação a privacidade dos dados:
Amazon Textract
https://aws.amazon.com/pt/textract/faqs/#Data_Privacy
O Amazon Textract pode armazenar e usar entradas de documento e imagem processadas pelo serviço exclusivamente para oferecer e manter o serviço e para aprimorar e desenvolver a qualidade do Amazon Textract e de outras tecnologias de machine learning/inteligência artificial da Amazon.
Google Document AI
https://cloud.google.com/document-ai/docs/security#data-usage
O Google não usa nenhum conteúdo seu (como documentos e previsões) para nenhuma finalidade, exceto para fornecer o serviço Document AI.
Microsoft Azure AI Document Intelligence
https://privacy.microsoft.com/pt-BR/privacystatement
A Microsoft usa os dados que coletamos para proporcionar experiências sofisticadas e interativas. Especificamente, usamos dados para:
- Fornecer nossos produtos, incluindo a atualização, segurança e solução de problemas, bem como o fornecimento de suporte. Isso também inclui o compartilhamento de dados, quando ele é necessário, para fornecer o serviço ou realizar as transações que você solicitar.
- Melhorar e desenvolver nossos produtos.
- Personalizar nossos produtos e fazer recomendações.
- Anunciar e comercializar para você, incluindo o envio de comunicações promocionais, o direcionamento de anúncios e a apresentação de ofertas relevantes para você.
Torna-se evidente que os players em nuvem mais comuns usam os dados para “fornecer” o serviço, e em alguns casos muito mais do que isso. No caso específico do Google Document AI, não está claro se “fornecer” inclui o treinamento dos modelos de OCR e em qual extensão esses modelos são utilizados para outras finalidades.
Portanto, mesmo que a IA forneça uma confiabilidade sem precedentes ao OCR, as instituições de saúde precisam considerar que não só os dados de seus pacientes possam estar expostos, como também informações críticas sobre seus próprios negócios.
Resumindo: o sonho está próximo de se tornar realidade, mas novos desafios virão com ele.
Que Saber Mais?
A documentação do eDok tem um extenso guia técnico sobre a situação geral do OCR, atualizado periodicamente com as novidades do tema.