Document Understanding: versión

document-understanding

latest

false

Guía del usuario de Document Understanding

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Crear

Conceptos clave para la sección Crear en Document Understanding, que cubren la carga de documentos, la clasificación automática, la anotación, la gestión de campos y las experiencias de etiquetado guiadas.

Esta sección proporciona las siguientes experiencias:

Carga los documentos y los clasifica automáticamente.
Carga los documentos directamente en tipos de documentos.
Gestiona archivos desde el proyecto (añadir, eliminar archivos y añadir, cambiar etiquetas).
Anota documentos.
Añade o elimina campos.
Disfruta de una experiencia guiada sobre el entrenamiento de modelos de clasificación y extracción utilizando las recomendaciones. El entrenamiento se inicia manualmente por modelo: los clasificadores exponen el botón Iniciar entrenamiento en la píldora de estado de entrenamiento del modelo (Helix Classifier en la página Dividir y clasificar; Clasificador heredado en el área Recomendaciones). Los extractores exponen el botón Iniciar entrenamiento en la página de anotación de cada tipo de documento, o a través de la acción en su píldora de estado de entrenamiento del modelo . Para obtener más información, consulta Iniciar una ejecución de entrenamiento.

Anotar documentos

Después de crear correctamente tu proyecto y cargar tus documentos a un tipo de documento específico, se preanotan automáticamente. Esto se hace utilizando una combinación de modelos generativos y especializados, basados en el esquema del tipo de documento. El esquema define claramente los campos que quieres extraer de un tipo de documento en particular. Para encontrar el esquema del tipo de documento, ve a la página Anotación y consulta la sección Campos .

Para obtener información más detallada sobre cómo anotar tus documentos, consulta la página de instrucciones sobre cómo anotar documentos.

Excepciones para revisión

Puedes utilizar documentos que se han validado en la estación de validación para mejorar aún más el rendimiento de tus modelos.

Si hay algún cambio después del paso de validación, se muestra el botón Excepciones para revisión para el tipo de documento afectado.

Figura 1. Botón Excepciones para revisión

Para obtener más información sobre cómo volver a entrenar tus modelos, consulta la página de instrucciones de Volver a entrenar extractores.

Etiquetar documentos

Una vez cargados los documentos, puedes añadirles etiquetas.

Puedes añadir una etiqueta con un máximo de 100 caracteres para cada documento.

Para añadir una etiqueta a tus documentos, selecciona los documentos que deseas añadir y selecciona el botón Etiquetas del menú situado encima de la lista de tipos de documentos.

Puedes buscar en tus documentos más fácilmente si filtras utilizando etiquetas. También puedes comprobar los resultados por etiqueta en el archivo de configuración avanzada cuando se entrena un modelo.

Gestor de tipos de documento

Puede editar la configuración de varios campos desde el Gestor de tipos de documento.

Para llegar a allí, seleccione el icono de tres puntos ⋮ junto al tipo de documento que desea editar y seleccione Administrador de tipos de documentos en el menú.

Figura 2. Selecciona Gestor de tipos de documentos

Nota:

Las recomendaciones en Document Understanding se muestran solo cuando el usuario tiene permisos suficientes para realizar la acción sugerida por la recomendación. Si no tienes permisos para ejecutar las acciones recomendadas, verás un mensaje que indica acceso insuficiente. Los usuarios con los roles de Desarrollador de Document Understanding, Administrador de Document Understanding y Administrador de Proyecto de Document Understanding pueden ver todas las recomendaciones disponibles. El rol de Administrador de Proyecto aplica estos permisos solo en el nivel de proyecto.

Campos extraídos

Editar o añadir nuevos campos

Para añadir un nuevo campo, seleccione Añadir campo y rellene la información necesaria. Puede añadir o editar las siguientes opciones para cada campo:

Nombre del campo: el nombre único para el campo.
Tipo de contenido: el tipo de contenido del campo:
- String: se utiliza para los nombres o direcciones de las empresas, así como para las condiciones de pago, o para cualquier otro campo en el que desees crear la lógica de análisis o formato manualmente, en el flujo de trabajo de RPA.
- Número: se utiliza para importes o cantidades, con análisis inteligente de los separadores de decimales/miles.
- Fecha: analiza, formatea y unifica la salida utilizando el formato AAAA-MM-DD.
- Teléfono: se utiliza para el número de teléfono. El formato elimina las letras y los paréntesis, y reemplaza los espacios por guiones.
- Número de ID: se utiliza para códigos alfanuméricos, números de ID. Es similar al tipo de contenido de cadena, pero elimina cualquier carácter que precede al carácter : . Si el número de identificación que necesitas extraer puede contener : caracteres, utiliza el tipo de contenido string en su lugar para evitar la pérdida de datos.
Atajo: la tecla de atajo para el campo. Se permite una clave o una combinación de dos claves.
Configuración avanzada: las opciones disponibles difieren en función del tipo de contenido del campo seleccionado. Selecciona el botón Configuración avanzada para el campo que quieres editar: Figura 3. Configuración avanzada del tipo de documento
- ID de campo: el ID único del campo.
- Posprocesamiento:
  - first_span: si el modelo predice más de una instancia de un campo en un documento, devolverá la primera.
  - valor_más_largo: si el modelo predice más de una instancia de un campo en un documento, devolverá el valor que consista en el mayor número de caracteres.
  - mayor_confianza: si el modelo predice más de una instancia de un campo en un documento, haz que devuelva el valor con la mayor confianza.Puntuación: la medida utilizada para determinar la precisión cuando se ejecutan evaluaciones de las predicciones del modelo solo está disponible para los campos con el tipo de contenido String:
  - coincidencia_exacta: la predicción solo se considerará correcta (puntuación de 1) si coincide exactamente con el valor real. Si difiere incluso en un solo carácter, se considera incorrecto (puntuación de 0). Esta es la configuración predeterminada para todos los campos excepto para los campos de cadena .
  - levenshtein: la predicción se considerará parcialmente correcta según la distancia de Levenshtein entre la predicción y el valor real. Por ejemplo, si se predice correctamente un valor de 10 letras excepto los 2 últimos caracteres, la puntuación de esa predicción será de 0,8.
- Formato de fecha: este campo solo está disponible para campos con tipo de contenido Fecha e indica cómo se analizan y devuelven las fechas ambiguas:
  - Automático
  - Estilo estadounidense: AAAA-DD-MM
  - Estilo no estadounidense: AAAA-MM-DD
- Multilínea: los campos que abarcan varias líneas de texto (direcciones o descripciones) deben tener esta comprobación, de lo contrario solo se devuelve la primera línea.
- Multivalor: el campo devuelve una lista con todos los valores detectados en el documento.

También puedes reordenar los campos desde esta vista.

Los cambios en la configuración del tipo de documento no desencadenan el entrenamiento automáticamente. Se muestra una advertencia cuando un cambio de esquema aún no se ha incluido en un modelo entrenado. Para incluir el cambio, selecciona Iniciar entrenamiento en la página de anotación del tipo de documento antes de crear una nueva versión del proyecto.

Buscar nombres de campo

Puede buscar entre los nombres de campo disponibles. Para ello, utilice la barra de búsqueda de la esquina superior izquierda de la interfaz del gestor de tipos de documento. Para una búsqueda más eficiente, utilice la función Filtrar para filtrar por tipo de contenido.

Figura 4. Buscar nombres de campo

Eliminar campos

Selecciona el botón Eliminar junto al campo que quieres eliminar.

Figura 5. Eliminar un campo

También puedes seleccionar varios (o todos) los campos y eliminarlos a la vez. Para ello, selecciona la marca de verificación junto a los campos que deseas eliminar y luego selecciona Eliminar.

Figura 6. Eliminar varios campos a la vez

Campos de clasificación

Los campos de clasificación son puntos de datos que se refieren a un documento en su conjunto. Por ejemplo, el tipo de gasto de un recibo (comida, hotel, aerolínea o transporte) o la moneda de una factura (USD, EUR, JPY) son campos de clasificación.

Nota:

Las siguientes limitaciones se aplican actualmente a la característica de los campos de clasificación:

Cuando se utiliza la actividad Extraer datos del documento, los campos de clasificación se admiten para los extractores de proyecto modernos y los modelos listos para usar, pero no para los extractores de proyecto clásicos.
Los campos de clasificación se extraen para los tipos de documentos personalizados solo después de un entrenamiento correcto.

Editar o añadir campos de clasificación

Para añadir un nuevo campo de clasificación, selecciona Añadir campo y escribe un nombre para el nuevo campo.

También puedes reordenar los campos desde esta vista.

Figura 7. Añadir un nuevo campo de clasificación

Para comprobar el ID del campo de clasificación, selecciona Configuración avanzada junto al campo de clasificación requerido.

Figura 8. Configuración avanzada de los campos de clasificación

Editar o añadir clases

Para añadir una nueva clase para un campo de clasificación, selecciona Añadir clase y escribe un nombre de clase y una descripción opcional.

Nota:

Cada campo de clasificación debe contener al menos dos clases.

Figura 9. Añadir una nueva clase

Puedes editar el nombre y la descripción de cada clase.

También puedes reordenar las clases desde esta vista.

Para eliminar una clase, selecciona Eliminar junto a la clase que quieres eliminar.

Figura 10. Eliminar una clase

Configuración

Puedes cambiar la configuración del tipo de documento desde la pestaña Configuración.

Figura 11. Configuración del modelo

Puedes cambiar la siguiente configuración:

Modelo base: las estimaciones del tamaño del conjunto de datos utilizadas en las acciones recomendadas dependen del modelo base utilizado para entrenar. El uso del modelo base más similar a tu tipo de documento reducirá la cantidad de trabajo de anotación necesario.
Número de idiomas: la estimación del tamaño del conjunto de datos utilizada en las acciones recomendadas depende del número de idiomas en el conjunto de datos. Más idiomas generalmente requieren anotar más datos.

Buscar documentos

Puedes buscar los documentos cargados por nombre del documento. Para ello, utilice la barra de búsqueda de la esquina izquierda de la sección Crear. Para una búsqueda más eficiente, utiliza la característica Filtrar para filtrar por:

Tipo de documento: elige el tipo de documento deseado de la lista desplegable.
Fecha de carga: elige un intervalo de fechas en el que se cargó el documento.
Estado: elige el estado del documento.
Etiqueta: elige las etiquetas que deseas filtrar.

Figura 12. Filtrar documentos

Puntuación del proyecto y del modelo

Puedes comprobar la puntuación general de tu proyecto en la esquina superior derecha. Esta puntuación influye en las puntuaciones del clasificador y del extractor para todos los tipos de documentos. Selecciona Puntuación del proyecto para mostrar la sección Medida . Puedes consultar medidas de rendimiento más detalladas en esa sección.

Puedes comprobar la puntuación para cada tipo de documento de la sección Tipo de documento por separado. La puntuación influye en el rendimiento general del modelo, así como en el tamaño y la calidad del conjunto de datos.

Nota:

Debe cargar al menos 10 documentos para obtener una puntuación del proyecto. Para una puntuación de tipo de documento, necesitas al menos 10 documentos bajo el mismo tipo de documento.

Puedes comprobar la puntuación de tus modelos si seleccionas la etiqueta de puntuación. La calificación del modelo es una funcionalidad destinada a ayudarte a visualizar el rendimiento de un modelo de clasificación. Se expresa como una puntuación del modelo de 0 a 100 de la siguiente manera:

Deficiente (0-49)
Promedio (50-69)
Bueno (70-89)
Excelente (90-100)

Selecciona Puntuaciones del modelo detalladas para ir a la sección Medir para obtener información detallada.

En esta página

Anotar documentos
Excepciones para revisión
Etiquetar documentos
Gestor de tipos de documento
Campos extraídos
Campos de clasificación
Configuración
Buscar documentos
Puntuación del proyecto y del modelo

¿Te ha resultado útil esta página?

AnteriorImportar documentos

Sig.Medida

Anotar documentos​

Excepciones para revisión​

Etiquetar documentos​

Gestor de tipos de documento​

Campos extraídos​

Editar o añadir nuevos campos​

Buscar nombres de campo​

Eliminar campos​

Campos de clasificación​

Editar o añadir campos de clasificación​

Editar o añadir clases​

Configuración​

Buscar documentos​

Puntuación del proyecto y del modelo​

¿Te ha resultado útil esta página?

Anotar documentos

Excepciones para revisión

Etiquetar documentos

Gestor de tipos de documento

Campos extraídos

Editar o añadir nuevos campos

Buscar nombres de campo

Eliminar campos

Campos de clasificación

Editar o añadir campos de clasificación

Editar o añadir clases

Configuración

Buscar documentos

Puntuación del proyecto y del modelo