Industria 4.0 y Smart Devices: Digitalización y extracción

El trabajo en primera línea en la industria requiere, en muchas ocasiones, trabajar con documentación variada: albaranes, documentos de recogida, facturas, listados de contenido. Normalmente, los trabajadores de primera línea reciben estos documentos y se aseguran de que son correctos, pero se digitalizan en otro departamento y por otras personas. Este cambio de lugar y personal para la digitalización es donde se pierden muchos documentos y, sobre todo, mucho tiempo.

En algunas ocasiones los trabajadores de primera línea almacenarán los documentos durante X tiempo para subir todo lo de un día o una semana, e puede traspapelar alguno o se puede extraviar.

En el mejor de los casos, pasarán horas entre el momento de recibir mercancía o entregarla hasta que el sistema tenga pleno conocimiento de ello.

Gracias a los teléfonos inteligentes, la visión por ordenador y la inteligencia artificial, podemos reducir estos tiempos y estas perdidas de documentos al mínimo, optimizando toda nuestra cadena de información y sistemas.

Capacidades de los teléfonos inteligentes

Hoy en día los teléfonos inteligentes nos permiten llevar en nuestro bolsillo la potencia de un ordenador de sobremesa en un factor de forma manejable y ligero. Además, ya que no solo cuenta la potencia, vienen equipados con sensores avanzados entre los que destaca la cámara fotográfica. Cada día disponemos de cámaras más potentes, con mayor resolución y con mejor calidad y estabilización óptica.

Esto nos permite aplicar técnicas de visión por ordenador para mejorar los datos de entrada a nuestros sistemas a a partir de una imagen.

Visión por ordenador

La visión por ordenador trata de usar sistemas artificiales para extraer información a partir de imágenes. Esto se realiza aplicando modelos y teoremas a la información digital de la imagen para comprender que contiene.

Entre muchos otros usos como reconstrucción de escenas, reconocimiento de actividad, seguimiento de video o estimación de movimiento, podemos aplicar visión por ordenador para detectar objetos.

Esto nos puede servir para detectar en el video de la cámara de nuestro móvil, un documento. Una vez detectado, podemos analizar sus bordes y ángulos para determinar la orientación e inclinación y corregirla:

Con este proceso conseguimos limpiar la imagen de elementos que no nos interesan, de ruido en los datos al mismo tiempo que facilitamos la lectura y mejoramos la calidad del documento fotografiado, corrigiendo la perspectiva, orientación y rotación del mismo.

Este paso por sí mismo, si enviásemos el documento corregido a nuestro servidor central, agilizaría mucho el procesamiento de documentación y su tránsito desde la primera línea de recepción, al punto de tratamiento y digitalización. Además, nos independiza del papel, al tener una copia perfecta en formato digital desde el primer momento.

Pero la inteligencia artificial, tanto online como offline y tecnologías como el OCR todavía nos pueden ayudar a ir un paso más allá en nuestra productividad.

OCR

Una vez que hemos saneado y mejorado nuestra imagen, podemos usar algoritmos para detectar letras, números y símbolos en ese documento.

Tradicionalmente se ha usado el reconocimiento óptico de caracteres, OCR por sus siglas en inglés Optical Character Recognition, una tecnología en la que alimentamos un motor con imágenes de letras, números y símbolos y busca en nuestra imagen de origen patrones de píxeles aproximados.

La limitación de la tecnología de OCR tradicional se encuentra en que no conoce qué está analizando, o que está extrayendo, solo hace una búsqueda de patrones de píxeles. Hoy en día, podemos utilizar herramientas mucho más potentes que son capaces de «leer» y «entender» el documento, extraer información importante e incluso crear un resumen y ejecutar procesos. Es aquí donde la IA entra en juego, en concreto los modelos de extracción de información de Azure Document Intelligence (conocido anteriormente como Forms Recognizer).

Inteligencia artificial

Gracias a Azure Document Intelligence podemos ir un paso más allá de la extracción de información y crear un sistema que realmente comprenda el documento.

Esto nos permite obtener más información que el texto escrito: comprender la estructura, obtener pares de clave y valor y coordenadas donde se encuentre cada una, analizar tanto texto mecanográfico como manuscrito,

Azure Document Intelligence puede trabajar con modelos pre entrenados o permitirnos crear y entrenar nuestros propios modelos de análisis.

De esta forma, podemos enviar nuestra imagen mejorada y corregida a Azure, recibir el resultado del análisis para validar los datos e integrarlos en nuestra base de conocimiento para futuras búsquedas:

Aprovechando las capacidades para trabajar desconectados de las aplicaciones móviles, este flujo de integración puede realizarse de forma asíncrona en segundo plano al tener conexión y recibir notificaciones cuando el sistema avance en los diferentes pasos.

Capacidades de los teléfonos inteligentes

Visión por ordenador

OCR

Inteligencia artificial

Yeray Julián

Solutions & Innovation Lead en ENCAMINA | Technology & Solutions Area