document-understanding

2020.10

false

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Obsoleto

Guía del usuario de Document Understanding

ENTREGA:

Última actualización 4 de feb. de 2025

Etiquetar documentos

Preparación de datos

Para conocer los volúmenes de documentos necesarios, consulta la sección Procesos de entrenamiento y reentrenamiento aquí.

A la hora de seleccionar los documentos que se utilizarán para el entrenamiento, también deberás tener en cuenta algunos detalles. En primer lugar, deberás eliminar las páginas basura sin campos de interés, o que solo incluyan uno o dos. Puedes hacerlo en Data Manager con el botón Eliminar. Las páginas no se pierden, siempre se pueden recuperar desde la vista Eliminado.

A continuación, si tu caso de uso implica un tipo de documento muy diverso (como facturas o recibos), necesitarás un conjunto de entrenamiento muy diverso. Al mismo tiempo, el conjunto de datos debe estar equilibrado: debes evitar tener diez veces más documentos de un proveedor que de otro. En general, basta con tener de 2 a 3 documentos (por ejemplo, ~4-6 páginas si hay una media de 2 páginas por documento) de cualquier diseño concreto. Si algunos son muy comunes en tu flujo de trabajo y deseas asegurarte de que se extraen correctamente, puedes incluir entre 5 y 7 muestras (de 10 a 15 páginas).

Sin embargo, si tu caso de uso implica un tipo de documento con un diseño muy consistente (como un formulario), necesitarás al menos 30 muestras del mismo, ya que, si el conjunto de entrenamiento es demasiado pequeño, el entrenamiento del modelo ML podría fallar.

Etiquetado de varios usuarios en paralelo

Puedes hacer que varias personas utilicen la misma instancia para etiquetar a la vez solo si se cumplen las siguientes condiciones:

no debe haber dos usuarios etiquetando el mismo documento a un mismo tiempo;
cada vez que se añadan o eliminen campos o se modifique su configuración, debe hacerlo un usuario y todos los demás deberán actualizar inmediatamente su navegador para ver los cambios. Realizar cambios en los campos mientras otras personas están etiquetando ocasionará comportamientos inesperados.

Etiquetado para entrenamiento

Si importas un conjunto de datos sin marcar la casilla "Convertirlo en un conjunto de pruebas" en el cuadro de diálogo Importar datos, ese conjunto de datos se utilizará para el entrenamiento. En este caso, solo tienes que centrarte en el etiquetado de las palabras (cuadros grises) del documento. Si a veces el texto que se rellena en los campos de la barra lateral no es correcto, no supone un problema, ya que el modelo ML seguirá aprendiendo. En algunos casos, puede ser necesario ajustar la configuración de los campos: por ejemplo, seleccionando la casilla de verificación Multilínea. En general, el objetivo principal es etiquetar las palabras de la página.

Campos que aparecen varias veces en el mismo documento

Hay muchas situaciones en las que aparecerá un campo en varios lugares del mismo documento o incluso en la misma página. Todas debería estar etiquetadas siempre que tengan el mismo significado. Un ejemplo, de muchas facturas de servicios, es la suma total. Suele aparecer en la parte superior, y también en una lista de elementos en el centro, y después también en un recibo de pago en la parte inferior que puede separarse y enviarse por correo junto al cheque. En esta situación, los tres casos se etiquetarían. Esto es útil porque, en algunos casos, si hay un error de OCR o el diseño es diferente y uno no puede ser identificado, el modelo todavía puede identificar las otras ocurrencias.

Es importante destacar que lo que cuenta es el significado del valor, no el valor en sí. Por ejemplo, en algunas facturas que no incluyen impuestos, el importe neto y el importe total tienen el mismo valor. Sin embargo, son conceptos claramente distintos. Por consiguiente, ambos no deben etiquetarse como importe total. Solo aquel cuyo significado sea representar la cantidad total, debe etiquetarse como cantidad total.

Etiquetado para pruebas

Cuando importas un conjunto de datos y marcas la casilla de verificación "Haz de este un conjunto de prueba" en el cuadro de diálogo Importar datos, entonces ese conjunto de datos no se utilizará para los procesos de entrenamiento en AI Fabric, sino solo en procesos de evaluación. En este caso, es importante que el texto correcto se rellene en los campos en la barra lateral (o en la barra superior en el caso de los campos Columna). Esto requiere más tiempo para verificar cada campo, aunque es la única manera de obtener una métrica fiable de la precisión del modelo ML que se está creando.

Etiquetado de acciones

Observa a continuación las principales acciones que debes realizar al etiquetar documentos. Un campo determinado puede estar etiquetado en varios lugares de la misma página.

Campo de etiqueta
- Selecciona palabras arrastrando el ratón (la banda elástica) o haciendo clic sobre ellas, manteniendo pulsada la tecla Mayús para seleccionar varias palabras.
- Pulsa la tecla de acceso directo para etiquetar el campo
Elimina la etiqueta
- Selecciona las palabras y, a continuación, pulsa la tecla Supr o Retroceso del teclado.
Agrupa la fila de la tabla
- Una vez etiquetados algunos campos de Columna, y solo si algunas filas comprenden varias líneas de texto, podrás agruparlas con la tecla «/» para indicar que forman parte de la misma fila de la tabla. Aparecerá un cuadro verde alrededor del grupo.
Desagrupa la fila de la tabla
- Selecciona el grupo y pulsa de nuevo "/".
Realizar correcciones en OCR
- Haz clic con el botón derecho del ratón en la palabra y edita el texto en la información sobre herramientas que aparece. Esto no suele ser recomendable, ya que cuando esté en producción el OCR continuará cometiendo esos errores. Por lo tanto, suele ser mejor saltárselo y seguir adelante.
Haz una corrección en el valor etiquetado
- Haz clic en el texto de la barra lateral o de la barra superior y edita el contenido. Aparecerá un pequeño candado para indicar que el campo se ha editado manualmente. Esto es necesario al etiquetar conjuntos de prueba.
Restablece el valor etiquetado al valor extraído automáticamente
- Haz clic en el candado y el campo volverá a su valor autoextraído.