document-understanding
2022.10
false
Guía del usuario de Document Understanding
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 4 de sep. de 2024

Etiquetar documentos

Para conocer los volúmenes necesarios de documentos, consulta Procesos.

Para obtener más detalles sobre cómo reunir un conjunto de datos de alta calidad, consulta Entrenamiento de modelos de alto rendimiento.

Campos que aparecen varias veces en el mismo documento

Hay muchas situaciones en las que un campo aparece en varios lugares en el mismo documento o incluso en la misma página. Todos deberían estar etiquetados, siempre que tengan el mismo significado.

Por ejemplo, el importe total de las facturas de servicios públicos. Suele aparecer en la parte superior, en una lista de elementos en el centro, o en un recibo de pago en la parte inferior que puede separarse y enviarse por correo con el cheque. En esta situación, los tres casos se etiquetarían. Esto es útil porque, en algunos casos, si hay un error de OCR o el diseño es diferente y un campo no puede ser identificado, el modelo todavía puede identificar las otras ocurrencias.

Nota: Lo que cuenta es el significado del valor, no el propio valor. Por ejemplo, en algunas facturas que no incluyen impuestos, el importe neto y el importe total tienen el mismo valor. Sin embargo, son conceptos claramente distintos. En consecuencia, no deben etiquetarse ambos como suma total, sino solo aquel cuyo sentido sea representar la suma total.

Varios usuarios que etiquetan en paralelo

Puedes hacer que varios usuarios usen la misma instancia para etiquetar al mismo tiempo, incluso en el mismo documento.

Si hay cambios concurrentes en el esquema, el cambio se realiza para un usuario y para el resto se muestra un mensaje de advertencia indicando que los cambios no se han podido realizar. Los otros usuarios deben actualizar inmediatamente su navegador para ver los cambios.

Etiquetado para el entrenamiento

Si importas un conjunto de datos sin marcar la casilla de verificación Hacer de esto un conjunto de evaluación en el cuadro de diálogo Importar datos, ese conjunto de datos se utiliza para el entrenamiento y solo tendrás que centrarte en el etiquetado de las palabras (cuadros grises) del documento.

Si a veces el texto que se rellena en los campos de la barra lateral no es correcto, no supone un problema, ya que el modelo ML sigue aprendiendo. En algunos casos, puede ser necesario ajustar la configuración de los campos: por ejemplo, seleccionando la casilla de verificación Línea múltiple. Pero, en general, lo principal es etiquetar las palabras en la página.

Etiquetado para la evaluación

Cuando se importa un conjunto de datos y se marca la casilla Hacer de este un conjunto de evaluación en el cuadro de diálogo Importar datos, ese conjunto de datos es ignorado por Productos de entrenamiento en AI Center y usado solo por Productos de evaluación.

Es importante que se complete el texto correcto en los campos de la barra lateral (o en la barra superior para los campos de columna). Esto requiere más tiempo para verificar cada campo, aunque es la única manera de obtener una métrica fiable de la precisión del modelo ML que se está creando.

A partir de la versión 2021.10, el Administrador de documentos admite el etiquetado de documentos de varias páginas. En consecuencia, los campos de la barra lateral tienen un único valor para todo el documento. Esto refleja fielmente el comportamiento en tiempo de ejecución en el flujo de trabajo de RPA y permite que los procesos de evaluación en AI Center produzcan puntuaciones realistas que reflejen el rendimiento en tiempo de ejecución real de los modelos ML.

Sin embargo, ten en cuenta que esto es un cambio importante con respecto a las versiones anteriores, en las que cada página se etiquetaba por separado. El etiquetado y la exportación de documentos de varias páginas supone que cada documento representa un único documento lógico. Por ejemplo, un documento de seis páginas puede contener una única factura de seis páginas, pero no debe contener tres facturas diferentes de dos páginas cada una. Esto es especialmente importante para los conjuntos de evaluación.

Acciones de etiquetado

Observa a continuación las principales acciones que debes realizar al etiquetar documentos. Un campo determinado puede estar etiquetado en varios lugares de la misma página.

Etiquetar un campo

Selecciona un cuadro de texto individual haciendo clic en él.

Para seleccionar varias palabras, haz clic en la primera palabra y luego Ctrl/Shift+clic en el resto de las palabras deseadas o selecciona toda un área arrastrando el ratón (la banda elástica) sobre ella.
Para desmarcar ciertos cuadros de texto de tu selección, mientras se pulsa Ctrl/Shift, haz clic o pon una banda en los cuadros de texto no deseados de nuevo.

Cuando tu selección sea precisa, pulsa la tecla de acceso directo para etiquetar el campo.



Etiquetar un campo multivaluado

Asegúrate de que la opción de multivaluado del campo está seleccionada.

Selecciona el primer lote de información y toca la tecla de acceso directo para etiquetar el campo.

Repite los pasos anteriores hasta que todos los valores estén etiquetados en el campo multivaluado.

Nota:
  • Los campos multivaluados solo se pueden utilizar con la versión 2022.10 o superior de los paquetes de aprendizaje automático.
  • Un campo multivaluado muestra dos valores en su estado contraído y todos los valores en su estado ampliado.Haz clic en la flecha de expansión del campo multivaluado para expandir y visualizar la lista de todos los valores etiquetados.


Eliminar una etiqueta

Selecciona los cuadros de texto y, a continuación, pulsa la tecla Delete o Backspace del teclado.


Agrupar una fila de tabla

Una vez que hayas etiquetado algunos campos de columna, y solo si algunas filas comprenden varias líneas de texto, podrás agruparlos pulsando la tecla / para indicar que forman parte de la misma fila de la tabla. Aparece un cuadro verde alrededor del grupo.

Cuando se agrupa un campo de columna etiquetado, la tabla se analiza y se muestra en la parte superior, resaltando los datos extraídos.





Desagrupar una fila de tabla

Selecciona el grupo y pulsa de nuevo la tecla /.


Realiza correcciones al Valor etiquetado

Haz clic en el texto de la barra lateral o de la barra superior y edita el contenido. Aparecerá un pequeño candado para indicar que el campo se ha editado manualmente. Esto es necesario cuando se etiquetan conjuntos de evaluación.



Restablece el Valor etiquetado al Valor extraído de forma automática

Haz clic en el candado y el campo volverá a su valor autoextraído.



Otras opciones

Selecciona una etiqueta

Utiliza los botones izquierdo o derecho del ratón para seleccionar una casilla o para obtener más información sobre ella.

  • Clic izquierdo: selecciona la casilla


  • Clic derecho: selecciona la casilla y muestra información sobre el texto OCR y la etiqueta actual.


Navegación por el documento

  • Alt + flecha izquierda/flecha derecha: navega entre documentos.


Escalado de documentos

  • Ctrl + Desplazar: amplía o reduce la escala del documento.


Elimina o recupera un documento

  • Alt + Supr: elimina un documento.


  • Alt + Supr: recupera un documento eliminado.

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.