- Información general
- Primeros pasos
- Crear modelos
- Consumir modelos
- Detalles del modelo
- Puntos finales públicos
- 1040: tipo de documento
- 1040 Anexo C: tipo de documento
- 1040 Anexo D: tipo de documento
- 1040 Anexo E: tipo de documento
- 1040x: tipo de documento
- 3949a: tipo de documento
- 4506T: tipo de documento
- 709: tipo de documento
- 941x: tipo de documento
- 9465: tipo de documento
- ACORD125: tipo de documento
- ACORD126: tipo de documento
- ACORD131: tipo de documento
- ACORD140: tipo de documento
- ACORD25: tipo de documento
- Estados de cuenta bancarios: tipo de documento
- Facturas de carga: tipo de documento
- Certificado de incorporación: tipo de documento
- Certificado de origen: tipo de documento
- Comprobaciones: tipo de documento
- Certificado de producto secundario: tipo de documento
- CMS 1500: tipo de documento
- Declaración de conformidad de la UE: tipo de documento
- Estados financieros: tipo de documento
- FM1003: tipo de documento
- I9: tipo de documento
- Tarjetas de identificación: tipo de documento
- Facturas: tipo de documento
- Facturas2: tipo de documento
- Facturas Australia: tipo de documento
- Facturas China: tipo de documento
- Facturas Hebreo: tipo de documento
- Facturas India: tipo de documento
- Facturas Japón: tipo de documento
- Remisión de facturas: tipo de documento
- Listas de embalaje: tipo de documento
- Nóminas: tipo de documento
- Pasaportes: tipo de documento
- Órdenes de compra: tipo de documento
- Recibos: tipo de documento
- Recibos2: tipo de documento
- Recibos Japón: tipo de documento
- Notificaciones de remesas: tipo de documento
- UB04: tipo de documento
- Divulgación de cierre de hipotecas en EE. UU.: tipo de documento
- Facturas de servicios públicos: tipo de documento
- Títulos de vehículos: tipo de documento
- W2: tipo de documento
- W9: tipo de documento
- Idiomas admitidos
- Paneles de insights
- Datos y seguridad
- Registro
- Licencia
- Tutorial
- Solución de problemas

Guía del usuario de proyectos modernos de Document Understanding
El divisor entrenable utiliza el modelo Helix Classifier para dividir y clasificar paquetes de varios documentos. Detecta los límites del documento automáticamente y asigna un tipo de documento a cada subdocumento detectado.
El modelo solo está disponible para tenants en Europa y Estados Unidos.
Utiliza el divisor entrenable en los siguientes escenarios:
- Solicitudes de hipotecas: paquetes divididos que contienen ID, formularios de solicitud y extractos bancarios.
- Incorporación de Healthcare: verifica la presencia de los documentos necesarios, como certificados médicos, formularios NPI e ID.
- Reclamaciones de seguros: formularios de reclamación separados, registros médicos y recibos.
- Procesamiento de facturas: gestiona paquetes de facturas de varios proveedores.
- Limpieza de documentos: elimina las páginas irrelevantes para que solo se procese el contenido relevante en sentido descendente.
Al crear un nuevo proyecto, los tenants ubicados en Europa y EE. UU. pueden habilitar el nuevo modelo de divisor y clasificador. Este modelo entrenable puede entrenarse para dividir y clasificar documentos complejos, lo que te permite procesar paquetes de documentos.
Sigue las instrucciones de esta página para crear un proyecto de Document UnderstandingTM y habilitar el nuevo modelo de divisor y clasificador.
Requisitos previos
Antes de comenzar, asegúrate de que se cumplen las siguientes condiciones:
- Su tenant se encuentra en Europa o Estados Unidos.
- IntelligentOCR.Activities versión 6.27.0 o posterior está instalada.
- Proyectos modernos está habilitado en tu tenant de Automation Cloud.
- Tienes paquetes de documentos de muestra representativos de tu caso de uso de producción.
- Abre Document Understanding.
- Selecciona Crear proyecto.
- Introduce el nombre del proyecto deseado.
- Selecciona Moderna para utilizar la experiencia moderna.
- Configura las Opciones avanzadas si es necesario.
- Activa la alternancia Habilitar división para permitir que el modelo divida los documentos en archivos individuales antes de la clasificación. También puedes habilitar esta opción desde la pantalla Configuración del proyecto .
Importante: cuando la opción Habilitar división está desactivada, el modelo se ejecuta en modo de solo clasificación:
- La interfaz de división de anotaciones no está disponible.
- Los documentos no se pueden dividir manualmente.
- Para el entrenamiento, carga documentos del mismo tipo de una sola página o de varias páginas.
- Todas las demás funcionalidades permanecen sin cambios.
- Selecciona el método OCR en la lista desplegable Método OCR .
- Introduce la clave API de OCR.
Nota: este campo se rellena automáticamente si seleccionas un UiPath® OCR.
- Introduce la URL de OCR. Para obtener la lista completa de URL para UiPath OCR, consulta la página Puntos finales públicos .
- Elige si aplicar OCR en PDF. El valor predeterminado es Auto.
- Activa la alternancia Habilitar división para permitir que el modelo divida los documentos en archivos individuales antes de la clasificación. También puedes habilitar esta opción desde la pantalla Configuración del proyecto .
- Selecciona Crear.
Resultado
Se ha creado su proyecto. La sección Crear estará disponible, donde puedes cargar documentos para su extracción o clasificación.
Elige una de las dos opciones disponibles:
- Extraer datos de documentos: extrae campos específicos de tus documentos, como números de factura, fechas y totales. Utiliza esta opción cuando necesites extraer campos de documentos.
- Clasificar y dividir documentos: ordena los documentos por tipo y separa varios documentos dentro de un solo archivo. Utiliza esta opción cuando necesites dividir y clasificar documentos.
- Selecciona un tipo de documento.
- Selecciona Cargar o arrastra y suelta tus archivos dentro del nuevo tipo de documento. Espera a que finalice la carga.
Ciertos archivos complejos contienen varios tipos de documentos. El divisor entrenable detecta dónde comienza y termina cada subdocumento, y clasifica cada sección en consecuencia.
- Selecciona Clasificar y dividir documentos.
- Carga tus paquetes de documentos. Espera a que finalice la carga y el procesamiento.
- Seleccione un documento de la sección de carga.
- Selecciona Dividir. Se abre la interfaz de división de anotaciones.
Nota: si el proyecto ya tiene un modelo entrenado, los documentos cargados se anotan previamente utilizando ese modelo. Esto ayuda a acelerar la anotación y te permite revisar los resultados de la predicción en nuevos documentos.
- Selecciona Nuevo tipo de documento para crear un tipo de documento para cada elemento de tu taxonomía. Elija un tipo de documento predefinido o cree uno personalizado.
Para los tipos de documentos personalizados, proporciona lo siguiente:
- Nombre: un nombre claro y descriptivo para el tipo de documento.
- Descripción: de una a tres frases que explican el propósito del documento y lo que lo diferencia de tipos similares.
- Indicadores clave: campos o términos separados por comas que identifican de forma única este tipo de documento.
Las descripciones y los indicadores clave afectan directamente a la precisión del modelo. Si las puntuaciones de clasificación son bajas, refina las descripciones antes de añadir más datos de entrenamiento.
Ejemplo para un tipo de documento Factura:
- Descripción: una solicitud de pago formal emitida por un vendedor a un comprador, que enumera los elementos de línea, las cantidades y los importes totales adeudados.
- Indicadores clave: número de factura, fecha de factura, importe total, información del vendedor, información del comprador, condiciones de pago
Consejos para escribir descripciones eficaces:
- Incluye terminología específica para el tipo de documento.
- Si dos tipos de documentos se confunden con frecuencia, añade detalles distintivos a ambas descripciones.
- Asigna las páginas no necesarias para el procesamiento posterior al tipo Desconocido . Esto incluye las portadas, las páginas en blanco y las hojas de separación. El modelo predice estas páginas como Desconocidas en tiempo de ejecución.
- Selecciona los límites entre los tipos de documentos para indicar dónde comienza y termina cada documento.
- Asigna cada rango de páginas a un tipo de documento utilizando el menú desplegable.
- Selecciona Confirmar cuando hayas terminado de anotar el documento.
Resultado
Cada subdocumento aparece bajo su tipo de documento correspondiente en la sección Crear . Cada subdocumento está preanotado con el esquema de su tipo de documento asignado.
Entrena con paquetes de documentos de producción originales y no divididos, no con documentos individuales previamente divididos.
El modelo aprende los patrones de agrupación de documentos del contexto en torno a cada tipo de documento: lo que aparece antes y después en un paquete real. El entrenamiento en documentos previamente divididos elimina este contexto y reduce la precisión de la división.
Enfoque recomendado:
- Cargar paquetes de producción que contengan varios tipos de documentos.
- Incluye paquetes que representen el rango de pedidos y recuentos de documentos vistos en producción.
- Apunta a un conjunto de datos equilibrado en todos los tipos de documentos.
El entrenamiento del modelo se inicia automáticamente después de que se cumplan las dos condiciones siguientes:
- Se han creado y anotado al menos cinco documentos secundarios.
Nota: por ejemplo, si utilizas un único PDF, debe contener al menos cinco subdocumentos. Si utilizas dos PDF, uno debe contener al menos dos documentos secundarios y el otro al menos tres.
- se ha confirmado un documento.
El estado de entrenamiento es visible en la esquina superior derecha del panel Clasificación .
Requisitos de datos de entrenamiento
| Requisitos | Detalles |
|---|---|
| Tipos de documentos mínimos | 1 |
| Muestras totales mínimas | 5 documentos en todos los tipos de documentos |
| Muestras mínimas por tipo | 1 |
| Recomendado para obtener resultados fiables | 50 a 100 paquetes |
| Tamaño máximo del documento | 160 MB o 500 páginas |
| División de entrenamiento/prueba | Automático: 80 % de entrenamiento, 20 % de prueba |
Mejorar los resultados del entrenamiento
Cuando el rendimiento no sea satisfactorio, utiliza uno de estos enfoques:
- Refina las descripciones y los indicadores clave de los tipos de documentos de bajo rendimiento.
- Añade más muestras de entrenamiento para tipos de documentos con baja precisión.
Cada vez que se entrena un nuevo modelo, todos los documentos del proyecto reciben predicciones del modelo entrenado. Esto te permite revisar el rendimiento del modelo de clasificación.
La columna Tipo muestra la verdad sobre el terreno: el tipo de documento como anotado. La columna Tipo previsto muestra el tipo previsto por el modelo.
De forma predeterminada, solo se muestran los paquetes de documentos. Para ver los documentos secundarios dentro de cada paquete, selecciona Ver y marca Incluir documentos secundarios.
Las predicciones también están disponibles en la interfaz de anotación habilitando la alternancia Mostrar predicción .
Selecciona la pestaña Medida para revisar el rendimiento del modelo.
| Métrica | Qué mide | Qué hacer si es bajo |
|---|---|---|
| Dividir F1 | Precisión de la detección de límites de documentos, independientemente de la clasificación | Añadir datos de entrenamiento con ejemplos de límites más variados |
| Clasificación F1 | Precisión de la asignación del tipo de documento, independientemente de los límites | Añadir más páginas de entrenamiento para los tipos de documentos de bajo rendimiento |
| F1 general | Puntuación combinada: la asignación de límite y tipo debe ser correcta | Identifique si la división o la clasificación es inferior y aborde eso primero |
Un subdocumento se cuenta como correcto solo cuando tanto la detección de límites como la asignación de tipos son correctas.
A través de actividades de IntelligentOCR
Utiliza la actividad Clasificador de proyectos de Document Understanding del paquete IntelligentOCR. Cuando la división está habilitada en el proyecto, la actividad devuelve múltiples ResultadosDeClasificación, uno por subdocumento detectado. Itera sobre los resultados para realizar la validación o extracción en cada subdocumento.
A través de actividades de Document Understanding
Utiliza la actividad Clasificar documento .
A través de API
classify . Cuando la división está habilitada en la versión del proyecto, el punto final realiza la división y devuelve los resultados de la clasificación para cada subdocumento identificado.
Exportar un conjunto de datos de modelo entrenado
Si una versión del proyecto contiene un clasificador de divisor entrenado, hay dos opciones de exportación disponibles:
- Exportación del conjunto de datos de tipo de documento: exportación estándar de datos anotados.
- Exportación de divisor y clasificador: exportación del proyecto completo, incluido el modelo entrenado.
Solo las versiones del proyecto con un clasificador de divisor entrenado aparecen en la lista desplegable Exportar divisor y clasificador .
Importar a un nuevo proyecto
La opción de importación está disponible en la página de clasificación vacía. La importación de un archivo zip asigna documentos a sus tipos de documentos y desencadena el entrenamiento automáticamente.
- Disponible solo en tenants ubicados en Europa y Estados Unidos.
- Las páginas no se pueden reordenar ni eliminar en la interfaz de anotación.
- La división de información no está disponible en la página Supervisar.
- El reentrenamiento desde Action Center no es compatible con los modelos de división y clasificación.
- Información general
- Cuando usarlo
- Crear un nuevo proyecto
- Extraer datos de documentos
- Clasificar y dividir documentos
- Mejores prácticas de entrenamiento
- Entrenamiento del modelo
- Predicciones de división y clasificación
- Comprender las métricas
- Consumir el modelo en tiempo de ejecución
- Importar y exportar
- Limitaciones