- Primeros pasos
- Componentes de marco
- Document Understanding en AI Center
- Procesos
- Paquetes ML
- Gestor de datos
- Servicios de OCR
- Licencia
- Referencias
Guía del usuario de Document Understanding
Etiquetar documentos
Para conocer los volúmenes de documentos necesarios, consulta la sección Procesos de entrenamiento y reentrenamiento aquí.
A la hora de seleccionar los documentos que se utilizarán para el entrenamiento, también deberás tener en cuenta algunos detalles. En primer lugar, deberás eliminar las páginas basura sin campos de interés, o que solo incluyan uno o dos. Puedes hacerlo en Data Manager con el botón Eliminar. Las páginas no se pierden, siempre se pueden recuperar desde la vista Eliminado.
A continuación, si tu caso de uso implica un tipo de documento muy diverso (como facturas o recibos), necesitarás un conjunto de entrenamiento muy diverso. Al mismo tiempo, el conjunto de datos debe estar equilibrado: debes evitar tener diez veces más documentos de un proveedor que de otro. En general, basta con tener de 2 a 3 documentos (por ejemplo, ~4-6 páginas si hay una media de 2 páginas por documento) de cualquier diseño concreto. Si algunos son muy comunes en tu flujo de trabajo y deseas asegurarte de que se extraen correctamente, puedes incluir entre 5 y 7 muestras (de 10 a 15 páginas).
Sin embargo, si tu caso de uso implica un tipo de documento con un diseño muy consistente (como un formulario), necesitarás al menos 30 muestras del mismo, ya que, si el conjunto de entrenamiento es demasiado pequeño, el entrenamiento del modelo ML podría fallar.
Puedes hacer que varias personas utilicen la misma instancia para etiquetar a la vez solo si se cumplen las siguientes condiciones:
- no debe haber dos usuarios etiquetando el mismo documento a un mismo tiempo;
- cada vez que se añadan o eliminen campos o se modifique su configuración, debe hacerlo un usuario y todos los demás deberán actualizar inmediatamente su navegador para ver los cambios. Realizar cambios en los campos mientras otras personas están etiquetando ocasionará comportamientos inesperados.
Si importas un conjunto de datos sin marcar la casilla "Convertirlo en un conjunto de pruebas" en el cuadro de diálogo Importar datos, ese conjunto de datos se utilizará para el entrenamiento. En este caso, solo tienes que centrarte en el etiquetado de las palabras (cuadros grises) del documento. Si a veces el texto que se rellena en los campos de la barra lateral no es correcto, no supone un problema, ya que el modelo ML seguirá aprendiendo. En algunos casos, puede ser necesario ajustar la configuración de los campos: por ejemplo, seleccionando la casilla de verificación Multilínea. En general, el objetivo principal es etiquetar las palabras de la página.
Hay muchas situaciones en las que aparecerá un campo en varios lugares del mismo documento o incluso en la misma página. Todas debería estar etiquetadas siempre que tengan el mismo significado. Un ejemplo, de muchas facturas de servicios, es la suma total. Suele aparecer en la parte superior, y también en una lista de elementos en el centro, y después también en un recibo de pago en la parte inferior que puede separarse y enviarse por correo junto al cheque. En esta situación, los tres casos se etiquetarían. Esto es útil porque, en algunos casos, si hay un error de OCR o el diseño es diferente y uno no puede ser identificado, el modelo todavía puede identificar las otras ocurrencias.
Es importante destacar que lo que cuenta es el significado del valor, no el valor en sí. Por ejemplo, en algunas facturas que no incluyen impuestos, el importe neto y el importe total tienen el mismo valor. Sin embargo, son conceptos claramente distintos. Por consiguiente, ambos no deben etiquetarse como importe total. Solo aquel cuyo significado sea representar la cantidad total, debe etiquetarse como cantidad total.
Cuando importas un conjunto de datos y marcas la casilla de verificación "Haz de este un conjunto de prueba" en el cuadro de diálogo Importar datos, entonces ese conjunto de datos no se utilizará para los procesos de entrenamiento en AI Fabric, sino solo en procesos de evaluación. En este caso, es importante que el texto correcto se rellene en los campos en la barra lateral (o en la barra superior en el caso de los campos Columna). Esto requiere más tiempo para verificar cada campo, aunque es la única manera de obtener una métrica fiable de la precisión del modelo ML que se está creando.