Exprimiendo el OCR de texto completo

análisis de texto en documentos digitalizados

Dentro de las practicas conocidas a la hora de digitalizar, es la de obtener o reconocer todo el texto o contenido de un documento mediante OCR. Con muchas aplicaciones (incluso aquellas que vienen con un scanner de documentos) podemos generar PDF buscable, o sea el formato de PDF que incluye el contenido en texto como metadato asociado a la imagen escaneada.

¿Cuanta utilidad le damos a estos datos reconocidos? ¿Podemos hacer algo más que simplemente ejecutar búsquedas por coincidencia exacta en nuestro ECM o administrador de documentos?

La respuesta es que si, y creo que este tema dá para largo. Pensemos en tan solo algunas aplicaciones:

Categorización de tipos documentales: mediante el análisis de contenido podemos identificar el tipo documental que tiene asociada la existencia de determinadas palabras claves (y la no existencia de otras). Y si aplicamos algo mas de lógica a nuestro algoritmo también podremos asociar estas palabras claves a posiciones o zonas del documento donde deberían estar ubicadas.

Esto es muy interesante ya que podemos aplicar este método tanto al momento de digitalizar (aplicaciones como Datacap o Kofax KTM cuentan con esta función) como también a la hora de migrar o reordenar volúmenes de documentos ya digitalizados y que se encuentran en un repositorio sin clasificación documental.

Búsqueda inteligente: Creo que está demás decir que todos nos hemos acostumbrado al tipo de búsqueda que usamos en la web o en Google, por ejemplificar, donde existe un análisis de la cadena de búsqueda, una corrección de lo que solicitamos si escribimos mal una palabra y en muchos casos la retroalimentación con los datos de lo que seleccionamos en el panel de resultados. Sabemos que este tema revierte mucha mas complejidad, pero el punto es:

¿Podemos contar con motores de búsqueda con tecnología aplicada en la web en nuestro gestor de documentos?

Esto es posible en base a las posibilidades de integración que tenga nuestro ECM y seguramente será una funcionalidad cada vez mas demandada a la hora de definir una solución que administre grandes volúmenes de documentos

Alertas: Si sabemos lo que estamos buscando también podremos analizar el contenido en búsqueda de determinadas coincidencias. De esa manera podremos habilitar alertas para prevenir fraude o incluso lavado de dinero.

Probablemente se nos ocurran mas aplicaciones, como reportes personalizados para evaluar métricas de interés. La idea es abrir la discusión y seguir ampliando en este tema en futuros posts en este blog.

Los invitamos a dejar sus comentarios y observaciones.

Saludos!


Comentarios

Entradas populares de este blog

Código de barra 2D en nuevo DNI argentino

Como está compuesto el código de barras AFIP en Facturas electrónicas

¿Cuando necesito usar OCR en mi proceso de RPA?