Más allá del OCR: uso de la IA para comprender dibujos técnicos complejos

La industria de fabricación de maquinaria lleva mucho tiempo buscando soluciones tecnológicas para automatizar la extracción de datos de los dibujos técnicos. Hasta ahora, la única opción era utilizar el reconocimiento óptico de caracteres (OCR). Es posible que ya haya probado soluciones OCR como Google Vision o Amazon Textract, pero pronto se dio cuenta:

 

El OCR genérico no es suficiente para entender los dibujos técnicos.

Las soluciones de OCR tienen numerosas limitaciones para entender cosas complejas como los dibujos técnicos. Echemos un vistazo más profundo a cómo los algoritmos de IA de Werk24 superaron el OCR genérico en diferentes desafíos y lograron la extracción de datos completamente automática de los Dibujos Técnicos.

 

Estructuración de los elementos del texto

El mayor reto para que una máquina lea dibujos técnicos es comprender el significado de los elementos individuales del texto y saber cuándo y cómo agruparlos en un formato de datos estructurado. El OCR solo puede leer el texto, pero no puede entender el significado de su propio resultado.

En los Dibujos Técnicos, hay muchos formatos de datos complejos como la Medida, GD&T e información en los Bloques de Título. La medida se presenta a menudo como un Tamaño Nominal con la Desviación Superior e Inferior apiladas una encima de la otra. El OCR sólo puede extraer el texto de izquierda a derecha y no es capaz de distinguir qué texto es el Tamaño Nominal, la Desviación Superior o la Desviación Inferior. Y debido al complejo entorno visual, el OCR también comete numerosos errores al agrupar los elementos correspondientes.

Werk24 ha desarrollado modelos avanzados de aprendizaje automático y algoritmos de IA para entender todos los formatos comunes de medidas con tamaño nominal, tolerancia, tamaño de ajuste, roscas. Al entender el significado individual de cada elemento basado en su contenido, contexto y agrupación visual, la API de Werk24 puede agrupar los elementos correctos en datos estructurados y devolverlos como formato JSON que puede ser utilizado por la máquina y alimentar su sistema de software directamente.

Otro ejemplo es el bloque del título, en el que suelen faltar subtítulos (el pequeño texto que describe el contenido) como "Designación", "ID del dibujo" o "Empresa". Esto hace que los resultados del OCR sean inútiles, porque el ordenador no entiende si el texto es la designación, el ID del dibujo o los detalles de la empresa. Werk24 utiliza la IA y el ML para entender el texto individual y emparejar los subtítulos que faltan con los resultados de texto correctos, para que su sistema de RFQ o ERP pueda utilizar directamente dicha información.

Comparación de los bloques de dibujos técnicos entre Google Vision OCR y Werk24 JSON
 

Corrección en función del contexto

El OCR puede fallar a menudo a la hora de diferenciar números o caracteres que se parecen, como el "1", el "7" y la "I", el "0" y la "O" o el "6" y el "8". Esto hace que el OCR no sea una opción fiable para procesar dibujos técnicos en la práctica real.

La tecnología de Werk24 comprende el significado y el contexto de cada elemento del texto. Además, realiza comprobaciones cruzadas de las etiquetas y líneas de medida. Esto significa que sabe que un Tamaño Nominal debería ser "11" en lugar de "17" en la situación en la que parece muy ambiguo y parecido.

 

Entender los símbolos especiales

Las soluciones OCR genéricas no pueden leer los símbolos especiales, incluidos todos los símbolos GD&T. Y para algunos símbolos matemáticos como "Ø", "±", el OCR genérico tiene resultados poco fiables en lo que respecta a las diferentes fuentes.

Con su propio modelo de aprendizaje automático, Werk24 entiende todos los símbolos especiales en Medidas y Tolerancias.

 

Complejo entorno gráfico

El OCR genérico no puede detectar de forma fiable los textos en los dibujos que están rodeados de elementos gráficos desordenados e intersectados, como líneas, símbolos, anotaciones, etc.

La API TechRead de Werk24 lee elementos de texto a pesar de las "distracciones" que los rodean. Así, cuando las líneas de rotación se cruzan e interfieren con las medidas, los pequeños fragmentos de texto pueden seguir leyéndose con gran precisión.

 

Orientación múltiple

Muchas de las principales soluciones de OCR requieren una orientación dominante del documento. Por ejemplo, los textos en un artículo siempre apuntan en una dirección, mientras que en los dibujos técnicos a menudo hay elementos de texto en diferentes orientaciones. Esto hace que muchos elementos de texto no sean detectados por OCR como Amazon Textract.

Werk24 no asume una orientación dominante, lo que supone una gran ventaja a la hora de extraer datos. En su lugar, la tecnología puede leer las medidas de cada elemento de texto individualmente, ya sea horizontal, vertical o inclinado en un ángulo


La solución completa de Werk24

Dado que el mercado ha buscado una solución técnica sofisticada y fiable para extraer datos de los dibujos técnicos, Werk24 ya ha satisfecho esta necesidad con su API TechRead. Disponible ahora, proporcionamos los medios para obtener automáticamente datos importantes de los Dibujos Técnicos, incluyendo Medidas, Tolerancias, GD&T y Bloques de Títulos, asegurando que los clientes ya no se vean frenados por soluciones OCR inadecuadas. Disponible ahora, todos los datos de producción importantes de los Dibujos Técnicos son accesibles en formato JSON en varios segundos.

Anteriormente
Anteriormente

Paul Kühn" menciona Werk24 como solución de digitalización

Siguiente
Siguiente

Lectura inteligente del bloque de título de los dibujos técnicos