document-understanding

2023.10

false

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Guía del usuario de Document Understanding

Entrenamiento de modelos de alto rendimiento

El poder de los modelos de aprendizaje automático es que se definen mediante datos de entrenamiento en lugar de por una lógica explícita expresada en código informático. Esto significa que se necesita un cuidado extraordinario al preparar conjuntos de datos porque un modelo solo es tan bueno como el conjunto de datos que se utilizó para entrenarlo. En ese sentido, lo que UiPath® Studio es para los flujos de trabajo RPA , una sesión de tipo de documento (en Document UnderstandingDocument Understanding^TM Cloud) es para las capacidades de aprendizaje automático . Ambos requieren algo de experiencia para ser utilizados de forma efectiva.

¿Qué puede hacer un modelo ML de extracción de datos?

Un modelo ML puede extraer datos de un solo tipo de documento, aunque puede abarcar varios idiomas diferentes. Es esencial que cada campo (Cantidad total, Fecha, etc.) tenga un significado único y coherente. Si un humano puede estar confuso sobre el valor correcto de un campo, un modelo ML también lo hará.

Pueden aparecer situaciones ambiguas. Por ejemplo, ¿es una factura de servicios públicos simplemente otro tipo de factura? ¿O se trata de dos tipos de documentos diferentes que requieren dos modelos ML distintos? Si los campos que necesita extraer son los mismos (es decir, tienen el mismo significado), entonces puedes tratarlos como un solo tipo de documento. Sin embargo, si necesitas extraer diferentes campos por distintos motivos (diferentes procesos empresariales), deberás tratarlos como dos tipos de documentos diferentes y, por tanto, entrenar dos modelos distintos.

En caso de duda, empieza por entrenar un solo modelo, pero guarda los documentos en distintos lotes de Document Manager (consulta el menú desplegable Filtro en la parte superior de la vista de Document Manager) para poder separarlos fácilmente más adelante, si fuera necesario. De esta manera, no se pierde el etiquetado. Cuando se trata de modelos ML, cuantos más datos, mejor. Por lo tanto, tener un solo modelo con datos amplios es un buen lugar para comenzar.

Conjuntos de datos de entrenamiento y evaluación

El Administrador de documentos puede utilizarse para crear dos tipos de conjuntos de datos:

conjuntos de datos de entrenamiento
conjuntos de datos de evaluación

Ambos tipos de conjuntos de datos son esenciales para crear un modelo ML de alto rendimiento y requieren tiempo y esfuerzo para su creación y mantenimiento. Para obtener un modelo ML de alto rendimiento se requiere un conjunto de datos de evaluación que sea representativo del tráfico de documentos de producción.

Cada tipo de conjunto de datos está etiquetado de manera distinta:

Los Conjuntos de datos de entrenamiento se basan en los cuadros delimitadores de las palabras de la página que representan las diferentes partes de la información que necesitas extraer.
Al etiquetar Conjuntos de entrenamiento, céntrate en la propia página y en los cuadros de palabras.
Los Conjuntos de datos de evaluación se basan en los valores de los campos, que aparecen en la barra lateral (para los campos regulares) o en la barra superior (para los campos de columna).
Cuando etiquetes un conjunto de evaluación, concéntrate en los valores bajo los nombres de los campos en la barra lateral o superior. Eso no significa que tengas que escribirlos manualmente. Se recomienda etiquetar seleccionando las casillas de la página, y comprobar la exactitud de los valores.

Componentes de extracción de datos

La extracción de datos se basa en los siguientes componentes:

Reconocimiento óptico de caracteres
Creación de palabras y líneas
Agrupar caracteres en palabras y palabras en líneas de texto de izquierda a derecha
Predicción del modelo de aprendizaje automático para cada palabra/casilla de la página
Limpieza, análisis y formato de los espacios de texto
Por ejemplo, agrupar palabras en varias líneas en una dirección, aplicar el formato estándar aaaa-mm-dd a una fecha
Aplicar un algoritmo para seleccionar qué valor se devuelve
Si el documento tiene dos o más páginas y algunos campos aparecen en más de una página

Niveles de confianza

¿Qué son los niveles de confianza?

Cuando los modelos ML hacen predicciones, son básicamente conjeturas estadísticas. El modelo dice "probablemente este sea el importe total" de esta factura. Esto plantea la pregunta: ¿qué tan probable? Los niveles de confianza son un intento de responder a esa pregunta, en una escala de 0 a 1. Sin embargo, NO son estimaciones de probabilidad verdaderas. Son el grado de confianza que tiene el modelo en sus conjeturas y, por tanto, dependen de con qué se haya entrenado el modelo. Una mejor forma de pensar en ellos es como una medida de familiaridad: ¿qué tan familiarizado está el modelo con esta entrada del modelo? Si se parece a algo que el modelo ha visto en el entrenamiento, es posible que tenga una mayor confianza. De lo contrario, podría tener una confianza inferior.

¿Para qué sirven los niveles de confianza?

Las automatizaciones empresariales necesitan formas de detectar y gestionar excepciones, es decir, los casos en los que una automatización sale mal. En las automatizaciones tradicionales, esto es bastante obvio porque cuando se interrumpe un flujo de trabajo de RPA, simplemente se detiene, se bloquea o genera un error. Ese error se puede detectar y gestionar en consecuencia. Sin embargo, los modelos de aprendizaje automático no arrojan errores cuando hacen malas predicciones. Entonces, ¿cómo determinamos cuándo un modelo ML ha cometido un error y debe activarse el flujo de gestión de excepciones? Esto a menudo implica la participación manual de personas, tal vez mediante el Action Center.

La mejor manera de detectar malas predicciones, con diferencia, es a través de la aplicación de reglas empresariales. Por ejemplo, sabemos que en una factura, el importe neto más el importe de los impuestos debe ser igual al importe total. O que los números de parte de los componentes ordenados deben tener 9 dígitos. Cuando estas condiciones no se mantienen, sabemos que algo ha ido mal y podemos desencadenar el flujo de gestión de excepciones. Este es el enfoque preferido y altamente recomendado. Vale la pena invertir un esfuerzo considerable en la creación de este tipo de reglas, incluso utilizando expresiones regulares complejas o búsquedas en bases de datos para validar nombres de proveedores, números de pieza, etc. En algunos casos, es posible que incluso desee extraer algún otro documento que no sea de interés, sino solo para cruzar referencias y validar algunos valores con el documento original de interés.

Sin embargo, en algunos casos, ninguna de estas opciones existe y aún se desea detectar predicciones potencialmente malas. En estos casos, puede volver al nivel de confianza. Cuando el nivel de confianza para una predicción es bajo, por ejemplo, inferior a 0,6, el riesgo de que la predicción sea incorrecta es mayor que si la confianza es 0,95. Sin embargo, esta correlación es bastante débil. Hay muchas instancias en las que se extrae un valor con poca confianza, pero es correcto. También es posible, aunque relativamente raro, que se extraiga un valor con alta confianza (más de 0,9), pero es incorrecto. Por estas razones, recomendamos encarecidamente a los usuarios que confíen en las reglas empresariales tanto como sea posible y solo utilicen los niveles de confianza como último recurso.

¿Qué tipos de niveles de confianza hay?

La mayoría de los componentes del producto Document Understanding^TM devuelven un nivel de confianza. Los componentes principales de un flujo de trabajo de Document Understanding^TM son la digitalización, la clasificación y la extracción. Cada uno de estos tiene una cierta confianza para cada predicción. La digitalización y la confianza de extracción se exponen visualmente en la estación de validación, por lo que puedes filtrar las predicciones y centrarte solo en las de baja confianza, para ahorrar tiempo.

Escala de la puntuación de confianza (o calibración)

Los niveles de confianza de los diferentes modelos se escalarán de forma diferente, dependiendo del diseño del modelo. Por ejemplo, algunos modelos devuelven niveles de confianza en el intervalo 0,9-1 casi siempre, y solo muy rara vez por debajo de 0,8. Otros modelos tienen niveles de confianza distribuidos de forma mucho más uniforme entre 0 y 1, incluso si generalmente se agrupan en el extremo superior de la escala. Como resultado, los umbrales de confianza en diferentes modelos serán diferentes. Por ejemplo, un umbral de confianza en el OCR no será el mismo que otro umbral en el extractor ML o el clasificador ML. Además, cada vez que haya una actualización importante de la arquitectura de un modelo, como la que se produce con el lanzamiento de la arquitectura del modelo basado en IA generativa de Helix Extractor, la distribución del nivel de confianza cambiará y los umbrales de confianza deberán volver a evaluarse.

Crear un modelo ML de alto rendimiento

Para lograr el mejor resultado en términos de tasa de automatización (porcentaje de reducción del trabajo manual medido en meses-persona por año necesarios para procesar tu flujo de documentos) deberías seguir cuidadosamente estos pasos:

Elegir el mejor motor OCR para los documentos

Esto influye tanto en el OCR como en la creación de Word y Línea (que depende parcialmente del OCR), y por supuesto.
Selecciona un conjunto de datos bien equilibrado y representativo para el entrenamiento
Definir los campos que se extraerán
Etiquetar el conjunto de datos de entrenamiento
Entrenar al extractor
Definir e implementar las reglas empresariales para procesar la salida del modelo
(Opcional) Elegir el umbral de confianza para la extracción
Entrenamiento con datos de la estación de validación
Implementar automatización

1. Elegir un motor OCR

Para elegir un motor de OCR, debes crear diferentes sesiones del Gestor de documentos, configurar diferentes motores de OCR e intentar importar los mismos archivos en cada uno de ellos para examinar las diferencias. Concéntrate en las áreas que deseas extraer. Por ejemplo, si necesitas extraer nombres de empresas que aparecen como parte de los logotipos en las facturas, es posible que quieras comprobar qué motor de OCR funciona mejor en el texto de los logotipos.

La opción predeterminada debería ser UiPath Document OCR, ya que se incluye en las licencias de Document Understanding sin coste alguno. Sin embargo, en los casos en los que se requieren algunos idiomas no admitidos, o algunos documentos muy difíciles de leer, es posible que desees probar Google Cloud (solo en la nube) o Microsoft Read (en la nube o local), que disponen de una mejor cobertura de idiomas. Estos motores tienen un coste, si bien es bajo. Sin embargo, si la precisión es mayor en algunos campos de datos críticos para el proceso empresarial, se recomienda encarecidamente utilizar el mejor OCR disponible, lo cual supondrá un ahorro de tiempo más adelante, ya que todo lo demás depende de él.

Ten en cuenta que la actividad Digitalizar documento tiene la configuración AplicarOcrEnPDF establecida en Automático de forma predeterminada, lo que determina si el documento requiere aplicar el algoritmo OCR dependiendo del documento de entrada. Evita perder la extracción de información importante (de logotipos, encabezados, pies de página, etc.) estableciendo ApplyOcrOnPDF en Sí, asegurándote de que se detecta todo el texto, aunque podría ralentizar tu proceso.

2. Definir campos

La definición de los campos es una conversación que debe tener lugar con el experto en la materia o el experto en el dominio que posee el proceso empresarial en sí. En el caso de facturas, sería el propietario del proceso de Cuentas por pagar. Esta conversación es fundamental, debe tener lugar antes de etiquetar los documentos para evitar la pérdida de tiempo, y requiere examinar juntos un mínimo de 20 muestras de documentos elegidos al azar. Hay que reservar un espacio de una hora para ello, y a menudo hay que repetirlo al cabo de un par de días, ya que la persona que prepara los datos se encuentra con situaciones ambiguas o casos límite.

No es raro que la conversación comience con la suposición de que hay que extraer, por ejemplo, 10 campos, y más tarde se acabe con 15.

Algunas configuraciones clave que debes tener en cuenta:

Tipo de contenido Esta es la configuración más importante, ya que determina el posprocesamiento de los valores, especialmente para las fechas (detecta si el formato es de estilo estadounidense o no estadounidense, y luego los formatea como aaaa-mm-dd) y para los números ( detecta el separador decimal: coma o punto). Los números de identificación eliminan todo lo que precede a dos puntos o a un símbolo de almohadilla. El tipo de contenido de cadena no realiza ninguna limpieza y se puede utilizar cuando quieres hacer tu propio análisis en el flujo de trabajo RPA.
Casilla de verificación Multilínea Esto es para analizar cadenas como direcciones que pueden aparecer en más de 1 línea de texto.
Casilla de verificación multivaluada Esta es para manejar campos de opción múltiple u otros campos que pueden tener más de un valor, pero que NO se representan como una columna de tabla. Por ejemplo, una pregunta de grupo étnico en un formulario del gobierno puede contener varias casillas de verificación donde puedes seleccionar todas las que correspondan.
Campos ocultos Los campos marcados como Ocultos pueden etiquetarse, pero se retienen cuando se exportan los datos, por lo que el modelo no se puede entrenar con ellos. Esto es útil cuando el etiquetado de un campo es un trabajo en curso, cuando es demasiado raro o cuando tiene baja prioridad.
Puntuación Esto es relevante solo para los procesos de evaluación y afecta a la forma en que se calcula la puntuación de precisión. Un campo que utiliza la puntuación de Levenshtein es más permisivo: si un solo carácter de cada 10 es incorrecto, la puntuación es de 0,9. Sin embargo, si la puntuación es Coincidencia exacta, es más estricto: un solo carácter incorrecto conduce a una puntuación de cero. Solo los campos de tipo String tienen la opción de seleccionar la puntuación de Levenshtein de forma predeterminada.

Cantidades en las facturas de servicios públicos

Un importe total puede parecer bastante sencillo, si bien las facturas de los servicios públicos contienen muchos importes. A veces es necesario el importe total que hay que pagar. Otras veces solo se necesita el importe de la factura actual, sin los importes arrastrados de periodos de facturación anteriores. En este último caso, hay que etiquetar de forma distinta incluso si la factura actual y el importe total pueden ser los mismos. Los conceptos son diferentes y los importes suelen ser diferentes.

Nota:

Cada campo representa un concepto diferente, y deben definirse de la manera más clara posible, para que no haya confusión. Si un humano puede confundirse, el modelo ML también se confundirá.

Además, el importe de la factura actual a veces puede estar compuesto por diferentes importes, tasas e impuestos y puede no aparecer individualizado en ninguna parte de la factura. Una posible solución a esto es crear dos campos: un campo de cargos anteriores y un campo total . Estos dos siempre aparecen como valores explícitos distintos en la factura de servicios públicos. Entonces, el importe de la factura actual puede obtenerse como la diferencia entre ambos. Incluso es posible que desees incluir los 3 campos (cargos anteriores, total y cargos actuales) para poder realizar algunas comprobaciones de coherencia en los casos en que el importe de la factura actual aparezca explícitamente en el documento. Por lo que podrías pasar de uno a tres campos en algunos casos.

Números de pedido en facturas

Los números de pedido pueden aparecer como valores únicos para una factura, o bien aparecer como parte de la tabla de elementos de línea de una factura, donde cada elemento de línea tiene un número de pedido diferente. En este caso, podría ser conveniente tener dos campos diferentes: n.º de pedido y n.º de elemento de pedido. Al mantener cada campo visual y conceptualmente coherente, es probable que el modelo cumpla mucho mejor su función. Sin embargo, debes asegurarte de que ambos estén bien representados en tus conjuntos de datos de entrenamiento y de evaluación.

Nombre del proveedor y dirección de pago en las facturas

El nombre de la empresa suele aparecer en la parte superior de una factura o una factura de servicios públicos, pero a veces puede no ser legible porque solo hay un logotipo y el nombre de la empresa no se escribe explícitamente. También podría haber algún sello, escritura a mano o arrugas sobre el texto. En estos casos, las personas pueden etiquetar el nombre que aparece en la parte inferior derecha, en la sección Remitir el pago a del recibo de pago de las facturas de servicios públicos. Ese nombre suele ser el mismo, pero no siempre, ya que se trata de un concepto diferente. Los pagos pueden realizarse a alguna otra empresa matriz o holding, u otra entidad afiliada, y es visualmente diferente en el documento. Esto puede provocar un rendimiento deficiente del modelo. En este caso, debes crear dos campos, nombre del proveedor y nombre de la dirección de pago. A continuación, puedes buscar ambos en una base de datos de proveedores y utilizar el que coincida, o utilizar el nombre de la dirección de pago cuando falte el nombre del proveedor.

Filas de tablas

Hay que tener en cuenta dos conceptos distintos: las filas de la tabla y las líneas de texto. Una fila de la tabla incluye todos los valores de todos los campos de las columnas que pertenecen a esa fila. A veces pueden formar parte de la misma línea de texto que se extiende a lo largo de la página. Otras veces pueden estar en líneas diferentes.

Si una fila de la tabla consta de más de una línea de texto, entonces necesitará agrupar todos los valores en esa fila de la tabla usando la tecla de acceso rápido “/”. Al hacerlo, aparecerá un cuadro verde que cubre toda la fila de la tabla. A continuación se muestra un ejemplo de una tabla en la que las dos filas superiores constan de varias líneas de texto y deben agruparse usando la tecla de acceso rápido “/”, mientras que la tercera fila es una sola línea de texto y no necesita agruparse.

A continuación, se muestra un ejemplo de una tabla en la que cada fila de la tabla está formada por una sola línea de texto. No es necesario agruparlas con la tecla de acceso directo "/", ya que el Administrador de documentos lo hace de manera implícita.

Identificar dónde termina una fila y comienza otra mientras se lee de arriba a abajo a menudo puede ser un gran desafío para los modelos de extracción ML, especialmente en documentos como formularios en los que no hay líneas horizontales visuales que separen las filas. Dentro de nuestros paquetes ML hay un modelo especial que está entrenado para dividir las tablas en filas correctamente. Este modelo se entrena usando estos grupos que etiqueta con las teclas "/" o "Intro" y que se indican con cuadros transparentes de color verde.

2. Selecciona un conjunto de datos bien equilibrado y representativo para el entrenamiento

La tecnología de aprendizaje automático tiene como principal ventaja la posibilidad de tratar problemas complejos con gran diversidad. A la hora de estimar el tamaño de un conjunto de datos de entrenamiento, se observa en primer lugar el número de campos y sus tipos, y el número de idiomas. Un solo modelo puede procesar varios idiomas siempre que no sean chino, japonés o coreano. Los escenarios chino, japonés o coreano suelen requerir conjuntos de datos de entrenamiento y modelos independientes.

Hay 3 tipos de campos:

Campos regulares (fecha, importe total)
- Para los campos regulares, se necesita un mínimo de entre 20 y 50 muestras de documentos por campo. Por lo tanto, si necesitas extraer 10 campos regulares, necesitarás al menos entre 200 y 500 muestras de documentos. Si necesitas extraer 20 campos regulares, necesitarás al menos de 400 a 1000 muestras de documentos. La cantidad de muestras de documentos necesarias aumentará con el número de campos. Cuantos más campos haya, más muestras de documentos necesitarás, entre 20 y 50 veces más.
Campos de columna (precio unitario del elemento, cantidad del elemento)
- En el caso de los campos de columna, se necesitan al menos entre 50 y 200 muestras de documentos por campo de columna, por lo que, para 5 campos de columna, con diseños simples y precisos, se pueden obtener buenos resultados con 300 muestras de documentos. Con diseños muy complejos y diversos, podrían necesitarse más de 1000 muestras de documentos. Para cubrir varios idiomas, se necesitan al menos entre 200 y 300 muestras de documentos por idioma, suponiendo que se cubran todos los distintos campos. Así, para 10 campos de cabecera y 4 campos de columna con 2 idiomas, 600 muestras de documentos podrían ser suficientes (400 para las columnas y cabeceras, más 200 para el idioma adicional), aunque en algunos casos podrían ser necesarias 1200 o más.
Campos de clasificación (moneda)
- Los campos de clasificación suelen requerir al menos entre 10 y 20 muestras de documentos de cada clase.

Las directrices generales presuponen que se está resolviendo un escenario de gran diversidad, como facturas o pedidos de compra, con decenas, cientos o miles de diseños. Sin embargo, si estás resolviendo un escenario de baja diversidad como un formulario de impuestos o facturas con muy pocos diseños (menos de 5-10), entonces el tamaño del conjunto de datos está determinado más por el número de diseños. En este caso, debes comenzar con 20 a 30 páginas por diseño y añadir más si es necesario, especialmente si las páginas son muy densas con un gran número de campos que extraer. Por ejemplo, crear un modelo para extraer 10 campos de 2 diseños puede requerir 60 páginas, pero si necesitas extraer 50 o 100 campos de 2 diseños, puedes comenzar con 100 o 200 páginas y añadir más según sea necesario para obtener la precisión deseada. En este caso, la distinción de campos regulares/campos de columna es menos importante.

Importante:

La tecnología ML está diseñada para gestionar escenarios de gran diversidad. Su uso para entrenar modelos en escenarios de baja diversidad (de 1 a 10 diseños) requiere un cuidado especial para evitar modelos frágiles que sean sensibles a pequeños cambios en el texto del OCR. Evita esto teniendo alguna variabilidad intencionada en los documentos de entrenamiento, imprimiéndolos y luego escaneándolos o fotografiándolos mediante aplicaciones de escáner para teléfonos móviles. Las ligeras distorsiones o los cambios de resolución confieren mayor solidez al modelo.

Estas estimaciones asumen que la mayoría de las páginas contienen todos o la mayoría de los campos. Si se trata de documentos con varias páginas y la mayoría de los campos están en una sola, el número de páginas relevante es el número de ejemplos de esa página en los que aparecen la mayoría de los campos.

Los números descritos son directrices generales, no requisitos estrictos. En general, puedes comenzar con un conjunto de datos más pequeño y luego seguir añadiendo datos hasta obtener una buena precisión. Esto es particularmente útil para sincronizar el trabajo de RPA con la creación del modelo. Además, se puede utilizar una primera versión del modelo para etiquetar previamente los datos adicionales (consulta la vista Configuración y el botón Predecir en el Administrador de documentos). Esto puede acelerar el etiquetado de los datos de entrenamiento adicionales.

Los modelos de aprendizaje profundo pueden generalizar

No es necesario que todos los diseños estén representadas en un conjunto de entrenamiento. De hecho, la mayoría de los diseños de nuestro flujo de documentos de producción no tienen ninguna muestra en tu conjunto de entrenamiento, o una o dos muestras de documentos. Esto es conveniente, ya que se desea aprovechar el poder de la IA para entender los documentos y ser capaz de hacer predicciones correctas sobre los documentos que no ha observado durante el entrenamiento. No es obligatorio contar con muchas muestras de documentos por diseño, ya que la mayoría de los diseños podrían no estar presentes o estarlo solo una o dos veces, y el modelo seguiría siendo capaz de predecir correctamente, basándose en el aprendizaje de otros diseños.

Entrenamiento sobre un modelo listo para usar

Hay tres tipos principales de escenarios a la hora de entrenar un modelo ML para Document Understanding:

entrenar un nuevo tipo de documento desde cero utilizando el paquete ML de Document Understanding en AI Center;
reentrenar sobre un modelo previamente entrenado del tipo listo para usar con el fin de optimizar la precisión;
reentrenar sobre un modelo previamente entrenado listo para usar con el fin de optimizar la precisión y añadir algunos campos nuevos.

Las estimaciones del tamaño del conjunto de datos para el primer tipo de escenario se describen en la primera parte de esta sección bajo el título "Crear un conjunto de entrenamiento".

Para el segundo tipo de escenario, el tamaño del conjunto de datos depende de lo bien que funcionen los modelos previamente entrenados en los documentos. Si funcionan muy bien, es posible que se necesiten muy pocos datos, entre 50 y 100 páginas. Si fallan en algunos campos importantes, es posible que se necesiten más, aunque un buen punto de partida seguiría siendo cuatro veces menor que si se entrenara desde cero.

Y, por último, para el tercer tipo de escenario, comienza por el tamaño del conjunto de datos del segundo escenario y, luego, aumenta el conjunto de datos en función del número de campos nuevos que tengas, utilizando la misma orientación que para el entrenamiento desde cero: al menos entre 20 y 50 páginas por campo regular nuevo, o al menos entre 50 y 200 páginas por campo de columna.

En todos estos casos, es necesario etiquetar por completo todos los documentos, incluidos los campos nuevos, que el modelo listo para usar no reconoce, y también el origen de los campos, que sí se reconocen.

Desigualdad de ocurrencias en el campo

Algunos campos pueden aparecer en todos los documentos (por ejemplo, fecha, número de factura) mientras que otros pueden aparecer solo en el 10 % de las páginas (por ejemplo, gastos de gestión, descuento). En estos casos, hay que tomar una decisión empresarial. Si esos campos raros no son esenciales para la automatización, se puede optar por un pequeño número de muestras de documentos (entre 10 y 15) de ese campo en particular, es decir, páginas que contengan un valor para ese campo. Sin embargo, si esos campos son esenciales, debes asegurarte de incluir en su conjunto de entrenamiento al menos entre 30 y 50 muestras de documentos de ese campo para asegurarte de cubrir toda la diversidad.

Conjuntos de datos equilibrados

En el caso de las facturas, si un conjunto de datos contiene facturas de 100 proveedores, pero la mitad del conjunto de datos está formado solo por facturas de un único proveedor, será un conjunto de datos muy desequilibrado. Un conjunto de datos perfectamente equilibrado es aquel en el que cada proveedor aparece un número igual de veces. No es necesario que los conjuntos de datos estén perfectamente equilibrados, aunque debería evitarse que más del 20 % de todo el conjunto de datos proceda de un solo proveedor. En algún momento, un mayor número de datos no ayuda, e incluso puede afectar a la precisión en otros proveedores porque el modelo optimiza demasiado (sobreajusta) para un proveedor.

Conjuntos de datos representativos

Los datos deben elegirse para cubrir la diversidad de los documentos que pueden verse en el flujo de trabajo de producción. Por ejemplo, si recibes facturas en inglés, pero algunas de ellas provienen de EE. UU., India y Australia, probablemente tengan un aspecto diferente, por lo que debes asegurarte de tener muestras de documentos de los tres. Esto es relevante no solo para el entrenamiento del modelo en sí, sino también para fines de etiquetado. Al etiquetar los documentos, es posible que descubras que necesitas extraer campos nuevos y diferentes de algunas de estas regiones, como el código GSTIN de la India o el código ABN de Australia. Consulta la sección Definir campos para obtener más información.

4. Etiquetar el conjunto de datos de entrenamiento

Al etiquetar los datos de entrenamiento, hay que centrarse en los cuadros delimitadores de las palabras en el panel de documentos del Administrador de documentos. Los valores analizados en las barras laterales derecha o superior no son importantes, ya que no se utilizan para el entrenamiento.

Cada vez que un campo aparece varias veces en una página, siempre que represente el mismo concepto, todos deben estar etiquetados.

Cuando el OCR se salta una palabra o se equivoca en algunos caracteres, basta con etiquetar el cuadro delimitador si lo hay, y si no, se omite y se continúa. No es posible añadir una palabra en el Administrador de documentos, ya que, aunque lo hicieras, la palabra seguiría faltando durante la ejecución, por lo que añadirla no sirve de nada al modelo.

Al etiquetar, presta atención a los campos que puedan tener varios significados/conceptos que se solapen, en caso de que necesites dividir un campo en dos campos independientes, o campos que no necesites expresamente, pero que, si están etiquetados, podrían ayudarte a realizar cierta validación o lógica de comprobación de la autocoherencia en el flujo de trabajo RPA. Algunos ejemplos típicos son cantidad, precio unitario e importe de línea en los elementos de línea de facturas. El importe de la línea es el producto de la cantidad y el precio unitario, aunque resulta muy útil para comprobar la coherencia sin necesidad de niveles de confianza.

5. Entrenar el extractor

Para crear un extractor, ve a la pestaña Extractores en Document Understanding y selecciona el botón Crear extractor en la parte superior derecha.A continuación, puedes seleccionar el tipo de documento, el modelo de ML y la versión que te gustaría utilizar. Puedes supervisar el progreso en la pestaña Extractores, o en la vista de detalles del extractor, que contiene un enlace al proceso de AI Center, donde puedes comprobar los registros detallados en tiempo real.

Al evaluar un modelo ML, la herramienta más potente es la evaluación_.xlsx generado en la carpeta artefactos/eval_metrics en la vista de detalles del proceso de AI Center. En la primera hoja puedes consultar un informe detallado de puntuaciones de precisión, incluidas las puntuaciones generales, y también por campo y por lote.

En este archivo de Excel puedes comprobar qué predicciones están fallando y en qué archivos, y puedes observar inmediatamente si se trata de un error de OCR o de extracción o análisis de ML, y si se puede corregir mediante lógica simple en el flujo de trabajo de RPA, o requiere un motor de OCR diferente, más datos de entrenamiento o mejorar el etiquetado o las configuraciones de los campos en el Gestor de documentos.

Este archivo de Excel también es muy útil para identificar las reglas empresariales más relevantes que debe aplicar al flujo de trabajo de RPA con el fin de detectar errores comunes y enviarlos a la Estación de validación en el Centro de Actions para su revisión manual. Las reglas empresariales son, con diferencia, la forma más fiable de detectar errores.

Para aquellos errores que no puedan detectarse con reglas de negocio, también puedes utilizar niveles de confianza. El archivo Excel también contiene niveles de confianza para cada predicción, para que puedas utilizar funciones de Excel como clasificar y filtrar y así determinar cuál es un buen umbral de confianza para tu escenario empresarial.

En general, la evaluación_<package_name>.xlsx El archivo de Excel es un recurso clave en el que debes centrarte para obtener los mejores resultados de tu automatización de IA.

Importante:

El entrenamiento de la GPU es muy recomendable para conjuntos de datos grandes y de producción. El entrenamiento de la CPU es mucho más lento y debe utilizarse con moderación, para pequeños conjuntos de datos con fines de demostración o prueba. Para obtener más información, consulta la página Procesos de entrenamiento .

6. Definir e implementar reglas empresariales

En este paso, debes preocuparte por los errores del modelo y por cómo detectarlos. Existen dos maneras principales de detectar errores:

mediante la aplicación de reglas empresariales,
mediante la aplicación de búsquedas en Sistemas de registro en la organización del cliente
mediante la aplicación de un umbral mínimo de confianza.

La forma más efectiva y fiable de detectar errores es definir reglas empresariales y búsquedas. Los niveles de confianza nunca pueden ser 100% perfectos, siempre habrá un porcentaje pequeño pero distinto de cero de predicciones correctas con baja confianza o predicciones erróneas con gran confianza. Además, y quizás lo más importante, un campo que falta no tiene confianza, por lo que un umbral de confianza nunca puede detectar errores por los que un campo no se extrae en absoluto. En consecuencia, los umbrales de nivel de confianza solo deben usarse como alternativa, una red de seguridad, pero nunca como la principal forma de detectar errores críticos para el negocio.

Ejemplos de reglas empresariales:

El importe neto más el importe de impuesto debe ser igual al importe total.
El importe total debe ser mayor o igual al importe neto.
Los campos Número de factura, Fecha, Importe total (y otros) deben estar presentes.
El número de pedido (si está presente) debe existir en la base de datos de pedidos.
La fecha de la factura debe ser anterior y no puede tener más de X meses de antigüedad.
La fecha de vencimiento debe ser futura y no debe superar Y días/meses.
Para cada elemento de línea, la cantidad multiplicada por el precio unitario debe ser igual al importe de línea.
La suma de los importes de las líneas debe ser igual al importe neto o al importe total.
etc.

Nota:

En el caso de los números, se realiza un redondeo a ocho decimales.

En particular, los niveles de confianza de los campos de columna casi nunca deberían utilizarse como mecanismo de detección de errores, ya que los campos de columna (por ejemplo, los elementos de línea en facturas o pedidos) pueden tener docenas de valores. Por lo tanto, establecer un umbral mínimo para tantos valores puede ser especialmente poco fiable, porque es más que probable que un valor sea de poca confianza, lo que llevaría a que la mayoría o todos los documentos se enviaran a validación por parte de una persona, muchas veces de forma innecesaria.

Las reglas empresariales deben aplicarse como parte del flujo de trabajo RPA, y el fallo de la regla empresarial se transmite al validador humano para centrar su atención y acelerar el proceso.

Nota:

Al definir las reglas empresariales, ten en cuenta que los valores Comienza con, Termina con y Contiene distinguen entre mayúsculas y minúsculas.

7. (Opcional) Elegir un umbral de confianza

Una vez definidas las reglas empresariales, a veces puede quedar un pequeño número de campos para los que no existen reglas empresariales, o para los que es poco probable que las reglas empresariales detecten todos los errores. Para ello, es posible que tengas que utilizar un umbral de confianza como último recurso.

La herramienta principal para establecer este umbral es la hoja de cálculo de Excel que genera el proceso de entrenamiento en la carpeta Salidas > artefactos > eval_metrics.

Esta evaluación_ El archivo .xlsx contiene una columna para cada campo y una columna para el nivel de confianza de cada predicción. Al ordenar la tabla en función de las columnas de confianza, puedes comprobar dónde comienzan a aparecer los errores para un campo determinado y establecer un umbral por encima de ese nivel para garantizar que solo se envíen directamente los documentos extraídos correctamente.

8. Sintoniza con los datos de la estación de validación

Los datos de la Estación de validación pueden ayudar a mejorar las predicciones del modelo aunque, a menudo, resulta que la mayoría de los errores no se deben al propio modelo sino al OCR, a errores de etiquetado, a incoherencias o a incidencias de posprocesamiento (por ejemplo, el formato de fechas o números). Así pues, el primer aspecto clave es que los datos de la Estación de validación deben utilizarse únicamente tras haber verificado y optimizado los demás Componentes de extracción de datos para garantizar una buena precisión, y la única área de mejora que queda es la propia predicción del modelo.

El segundo aspecto clave es que los datos de la Estación de validación tienen una menor densidad de información que los datos etiquetados en el Administrador de documentos. Fundamentalmente, al usuario de la estación de validación solo le interesa obtener el valor correcto una vez. Si una factura tiene 5 páginas, y el número de factura aparece en todas las páginas, el usuario de la Estación de validación lo valida solamente en la primera página. Así, el 80 % de los valores queda sin etiquetar. En el Administrador de documentos, todos los valores están etiquetados.

Finalmente, ten en cuenta que los datos de la Estación de Validación deben agregarse al conjunto de datos original etiquetado manualmente, para que siempre tengas un único conjunto de datos de entrenamiento que aumenta de tamaño con el tiempo. Siempre debes entrenar en el paquete ML con la versión menor 0 (cero), que es la versión lanzada por UiPath lista para su uso.

Importante:

A menudo se supone erróneamente que la forma de utilizar los datos de la Estación de validación es entrenar iterativamente la versión anterior del modelo, por lo que el lote actual se utiliza para entrenar el paquete X.1 para obtener X.2. A continuación, el siguiente lote se entrena en X.2 para obtener X.3 y así sucesivamente. Esta es la forma incorrecta de utilizar el producto. Cada lote de la estación de validación debe importarse en la misma sesión de Document Manager que los datos originales etiquetados manualmente, lo que crea un conjunto de datos más grande, que debe usarse para entrenar siempre en la versión X.0 del paquete ML.

Precauciones sobre el uso de los datos de la estación de validación

Los datos de la estación de validación pueden ser potencialmente de un volumen mucho mayor, ya que se utilizan en el flujo de trabajo de producción. No quieres que el conjunto de datos se sobrecargue con los datos de la estación de validación porque esto puede degradar la calidad del modelo debido a la incidencia de la densidad de información mencionada anteriormente.

La recomendación es añadir un máximo de 2 a 3 veces el número de páginas de datos de Document Manager y, más allá de eso, solo seleccionar cuidadosamente aquellos proveedores o muestras donde observes fallos importantes. Si hay cambios importantes conocidos en los datos de producción, como un nuevo idioma o una nueva región geográfica que se incorpora al proceso empresarial (expandiéndose de los EE. UU. a Europa o el sur de Asia), entonces los datos representativos para esos idiomas y regiones deben añadirse a Document Manager para el etiquetado manual. Los datos de la estación de validación no son apropiados para una expansión tan importante del ámbito.

Otro problema potencial con los datos de la estación de validación es el equilibrio. En Production , es común que la mayoría del tráfico provenga de un pequeño subconjunto de proveedores / clientes / regiones del mundo. Si se permite en el conjunto de entrenamiento tal como está, esto puede dar lugar a un modelo muy sesgado que tiene un buen rendimiento en un pequeño subconjunto de los datos, pero un rendimiento deficiente en la mayoría del resto de los datos. Por tanto, es importante tener especial cuidado al añadir datos de la estación de validación a un conjunto de entrenamiento.

Este es un escenario de ejemplo. Has elegido un buen motor OCR, has etiquetado 500 páginas en Document Manager, lo que da como resultado un buen rendimiento, y has implementado el modelo en un flujo de trabajo RPA de producción. La estación de validación está empezando a generar datos. Debes seleccionar aleatoriamente hasta un máximo de 1000-1500 páginas de la Estación de validación e importarlas al Document Manager junto con las primeras 500 páginas y entrenar tu modelo ML de nuevo. Después de eso, deberías mirar con mucho cuidado la evaluación_.xlsx para asegurarte de que el modelo realmente ha mejorado, y luego debes implementar el nuevo modelo en producción.

9. Implementar su automatización

Asegúrate de utilizar el Proceso de Document Understanding™: Plantilla de Studio en la sección Plantillas en la pantalla de inicio de Studio para aplicar las mejores prácticas en la arquitectura Enterprise RPA.

¿Te ha resultado útil esta página?

AnteriorServicios de OCR

Sig.Implantación de modelos de alto rendimiento

Guía del usuario de Document Understanding

¿Qué puede hacer un modelo ML de extracción de datos?​

Conjuntos de datos de entrenamiento y evaluación​

Componentes de extracción de datos​

Niveles de confianza​

¿Qué son los niveles de confianza?​

¿Para qué sirven los niveles de confianza?​

¿Qué tipos de niveles de confianza hay?​

Escala de la puntuación de confianza (o calibración)​

Crear un modelo ML de alto rendimiento​

1. Elegir un motor OCR​

2. Definir campos​

Cantidades en las facturas de servicios públicos​

Números de pedido en facturas​

Nombre del proveedor y dirección de pago en las facturas​

Filas de tablas​

2. Selecciona un conjunto de datos bien equilibrado y representativo para el entrenamiento​

Los modelos de aprendizaje profundo pueden generalizar​

Entrenamiento sobre un modelo listo para usar​

Desigualdad de ocurrencias en el campo​

Conjuntos de datos equilibrados​

Conjuntos de datos representativos​

4. Etiquetar el conjunto de datos de entrenamiento​

5. Entrenar el extractor​

6. Definir e implementar reglas empresariales​

7. (Opcional) Elegir un umbral de confianza​

8. Sintoniza con los datos de la estación de validación​

9. Implementar su automatización​

¿Te ha resultado útil esta página?

¿Qué puede hacer un modelo ML de extracción de datos?

Conjuntos de datos de entrenamiento y evaluación

Componentes de extracción de datos

Niveles de confianza

¿Qué son los niveles de confianza?

¿Para qué sirven los niveles de confianza?

¿Qué tipos de niveles de confianza hay?

Escala de la puntuación de confianza (o calibración)

Crear un modelo ML de alto rendimiento

1. Elegir un motor OCR

2. Definir campos

Cantidades en las facturas de servicios públicos

Números de pedido en facturas

Nombre del proveedor y dirección de pago en las facturas

Filas de tablas

2. Selecciona un conjunto de datos bien equilibrado y representativo para el entrenamiento

Los modelos de aprendizaje profundo pueden generalizar

Entrenamiento sobre un modelo listo para usar

Desigualdad de ocurrencias en el campo

Conjuntos de datos equilibrados

Conjuntos de datos representativos

4. Etiquetar el conjunto de datos de entrenamiento

5. Entrenar el extractor

6. Definir e implementar reglas empresariales

7. (Opcional) Elegir un umbral de confianza

8. Sintoniza con los datos de la estación de validación

9. Implementar su automatización