Exprimiendo el OCR de texto completo

análisis de texto en documentos digitalizados

Dentro de las practicas conocidas a la hora de digitalizar, es la de obtener o reconocer todo el texto o contenido de un documento mediante OCR. Con muchas aplicaciones (incluso aquellas que vienen con un scanner de documentos) podemos generar PDF buscable, o sea el formato de PDF que incluye el contenido en texto como metadato asociado a la imagen escaneada.

¿Cuanta utilidad le damos a estos datos reconocidos? ¿Podemos hacer algo más que simplemente ejecutar búsquedas por coincidencia exacta en nuestro ECM o administrador de documentos?

La respuesta es que si, y creo que este tema dá para largo. Pensemos en tan solo algunas aplicaciones:

Categorización de tipos documentales: mediante el análisis de contenido podemos identificar el tipo documental que tiene asociada la existencia de determinadas palabras claves (y la no existencia de otras). Y si aplicamos algo mas de lógica a nuestro algoritmo también podremos asociar estas palabras claves a posiciones o zonas del documento donde deberían estar ubicadas.

Esto es muy interesante ya que podemos aplicar este método tanto al momento de digitalizar (aplicaciones como Datacap o Kofax KTM cuentan con esta función) como también a la hora de migrar o reordenar volúmenes de documentos ya digitalizados y que se encuentran en un repositorio sin clasificación documental.

Búsqueda inteligente: Creo que está demás decir que todos nos hemos acostumbrado al tipo de búsqueda que usamos en la web o en Google, por ejemplificar, donde existe un análisis de la cadena de búsqueda, una corrección de lo que solicitamos si escribimos mal una palabra y en muchos casos la retroalimentación con los datos de lo que seleccionamos en el panel de resultados. Sabemos que este tema revierte mucha mas complejidad, pero el punto es:

¿Podemos contar con motores de búsqueda con tecnología aplicada en la web en nuestro gestor de documentos?

Esto es posible en base a las posibilidades de integración que tenga nuestro ECM y seguramente será una funcionalidad cada vez mas demandada a la hora de definir una solución que administre grandes volúmenes de documentos

Alertas: Si sabemos lo que estamos buscando también podremos analizar el contenido en búsqueda de determinadas coincidencias. De esa manera podremos habilitar alertas para prevenir fraude o incluso lavado de dinero.

Probablemente se nos ocurran mas aplicaciones, como reportes personalizados para evaluar métricas de interés. La idea es abrir la discusión y seguir ampliando en este tema en futuros posts en este blog.

Los invitamos a dejar sus comentarios y observaciones.

Saludos!


Comentarios

Entradas populares de este blog

Código de barra 2D en nuevo DNI argentino

Como está compuesto el código de barras AFIP en Facturas electrónicas

Como digitalizar un DNI y reconocer su código de barras con Kofax Express