Guía del usuario de proyectos modernos de Document Understanding

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última actualización 17 de feb. de 2025

Crear

Esta sección proporciona las siguientes experiencias:

Carga los documentos y los clasifica automáticamente.
Carga los documentos directamente en tipos de documentos.
Gestionar archivos del proyecto (añadir, eliminar archivos).
Anota documentos.
Añade o elimina campos.
Ten una experiencia guiada en el entrenamiento de modelos de clasificación y extracción utilizando las recomendaciones.

Anotar documentos

Después de crear tu proyecto y cargar tus documentos en un tipo de documento específico, se preanotan automáticamente. Esto se hace utilizando modelos especializados, basados en el esquema del tipo de documento. El esquema define claramente los campos que quieres extraer de un tipo de documento en particular. Para encontrar el esquema del tipo de documento, ve a la página Anotación y consulta la sección Campos.

Para obtener información más detallada sobre cómo anotar tus documentos, consulta la página de instrucciones sobre cómo anotar documentos.

Editar configuración de campo

Puede editar la configuración de varios campos desde el Gestor de tipos de documento.

Para llegar a allí, seleccione el icono de tres puntos ⋮ junto al tipo de documento que desea editar y seleccione Administrador de tipos de documentos en el menú.

Figura 1. Seleccionar gestor de tipos de documento

Editar o añadir nuevos campos

Para añadir un nuevo campo, seleccione Añadir campo y rellene la información necesaria. Puede añadir o editar las siguientes opciones para cada campo:

Nombre del campo: el nombre único del campo.
Tipo de contenido: el tipo de contenido del campo:
- String: se utiliza para nombres o direcciones de empresas, así como para condiciones de pago o para cualquier otro campo en el que desee crear manualmente la lógica de análisis o formato en el flujo de trabajo de RPA.
- Número: se utiliza para importes o cantidades, con análisis inteligente de los separadores de decimales/miles.
- Fecha: analiza, da formato y unifica la salida utilizando el formato AAAA-MM-DD.
- Teléfono: se utiliza para el número de teléfono. El formato elimina las letras y los paréntesis, y reemplaza los espacios por guiones.
- Número de ID: se utiliza para códigos alfanuméricos, números de ID. Es similar al tipo de contenido de cadena, pero elimina cualquier carácter que esté antes del carácter :. Si el número de ID que necesita extraer puede contener caracteres :, utilice el tipo de contenido string en su lugar para evitar la pérdida de datos.
Atajo: la tecla de atajo para el campo. Se permite una tecla o una combinación de dos teclas.
Configuración avanzada: las opciones disponibles difieren en función del tipo de contenido del campo seleccionado. Seleccione el botón Configuración avanzada para el campo deseado que desea editar:
Figura 2. Configuración avanzada del tipo de documento
- ID de campo: el ID único para el campo.
- Procesamiento posterior:
  - primer_span: si el modelo predice más de una instancia de un campo en un documento, devolverá la primera.
  - valor_largo: si el modelo predice más de una instancia de un campo en un documento, devolverá el valor que consiste en el mayor número de caracteres.
  - confianza_alta: si el modelo predice más de una instancia de un campo en un documento, devolverá el valor con la confianza más alta.
  Puntuación: la medida utilizada para determinar la precisión al ejecutar evaluaciones de predicciones del modelo solo está disponible para campos con el tipo de contenido Cadena:
  - coincidencia_exacta: la predicción solo se considerará correcta (puntuación de 1) si coincide exactamente con el valor verdadero. Si difiere incluso en un solo carácter, se considerará que es incorrecto (puntuación de 0). Esta es la configuración predeterminada para todos los campos, excepto para los campos Cadena.
  - levenshtein: la predicción se considerará parcialmente correcta según la distancia de Levenshtein entre la predicción y el valor verdadero. Por ejemplo, si se predice correctamente un valor de 10 letras excepto los últimos 2 caracteres, la puntuación de esa predicción es de 0,8.
- Formato de fecha: este campo solo está disponible para campos con tipo de contenido Fecha e indica cómo se analizan y devuelven fechas ambiguas:
  - Automático
  - Estilo estadounidense: AAAA-DD-MM
  - Estilo no estadounidense: AAAA-MM-DD
- Multilínea: los campos que abarcan varias líneas de texto (direcciones o descripciones) deben verificarse, de lo contrario, solo se devuelve la primera línea.
- Valor múltiple: el campo devuelve una lista con todos los valores detectados en el documento.

Los cambios en la configuración del tipo de documento no se reflejan en la nueva versión del proyecto si publicas una nueva versión del proyecto antes de volver a activar un entrenamiento.

Solución alternativa: para evitar esto, vuelve a entrenar el tipo de documento después de realizar modificaciones en los campos de tipo de documento. Puedes poner su punto etiquetando o confirmando documentos adicionales para ese tipo antes de publicar una nueva versión.

Configuración del modelo

Puede cambiar la configuración del tipo de documento desde la vista Configuración del modelo. Para ello, seleccione Configuración del modelo.

Figura 3. Configuración del modelo

Puedes cambiar la siguiente configuración:

Modelo base: las estimaciones del tamaño del conjunto de datos utilizadas en las acciones recomendadas dependen del modelo base utilizado para el entrenamiento. Usar el modelo base más similar a su tipo de documento reducirá la cantidad de trabajo de anotación requerido.
Número de idiomas: la estimación del tamaño del conjunto de datos utilizada en las acciones recomendadas depende de la cantidad de idiomas en el conjunto de datos. Más idiomas generalmente requieren anotar más datos.

Buscar nombres de campo

Puede buscar entre los nombres de campo disponibles. Para ello, utilice la barra de búsqueda de la esquina superior izquierda de la interfaz del gestor de tipos de documento. Para una búsqueda más eficiente, utilice la función Filtrar para filtrar por tipo de contenido.

Figura 4. Buscar nombres de campo

Eliminar campos

Seleccione Eliminar junto al campo que desea eliminar.

Figura 5. Eliminar un campo

También puede seleccionar varios (o todos) campos y eliminarlos a la vez. Para ello, seleccione la marca de verificación junto a los campos que desea eliminar y luego haga clic en Eliminar.

Figura 6. Eliminar varios campos a la vez

Buscar documentos

Puedes buscar los documentos cargados por nombre del documento. Para ello, utilice la barra de búsqueda de la esquina izquierda de la sección Crear. Para una búsqueda más eficiente, utiliza la característica Filtrar para filtrar por:

Tipo de documento: elige el tipo de documento deseado de la lista desplegable.
Fecha de carga: elige un intervalo de fechas en el que se cargó el documento.
Estado: elige el estado del documento.
Etiqueta: elige las etiquetas que deseas filtrar.

Figura 7. Filtrar documentos

Puntuación del proyecto y del modelo

Puedes comprobar la puntuación general de tu proyecto desde la esquina superior derecha. Esta puntuación influye en las puntuaciones del clasificador y del extractor para todos los tipos de documentos. Haz clic en Puntuación del proyecto para mostrar la sección Medida. Puedes comprobar más mediciones del rendimiento en profundidad en esa sección.

Puedes comprobar la puntuación para cada tipo de documento de la sección Tipo de documento por separado. La puntuación influye en el rendimiento general del modelo, así como en el tamaño y la calidad del conjunto de datos.

Nota: debes cargar al menos 10 documentos para obtener una puntuación del proyecto. Para una puntuación de tipo de documento, necesitas al menos 10 documentos del mismo tipo.

Puedes comprobar la puntuación de tus modelos si seleccionas la etiqueta de puntuación. La calificación del modelo es una funcionalidad destinada a ayudarte a visualizar el rendimiento de un modelo de clasificación. Se expresa como una puntuación del modelo de 0 a 100 de la siguiente manera: