document-understanding

latest

false

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Guía del usuario de proyectos modernos de Document Understanding

ENTREGA:

Última actualización 24 de mar. de 2026

Divisor entrenable (vista Previa)

Información general

El divisor entrenable utiliza el modelo Helix Classifier para dividir y clasificar paquetes de varios documentos. Detecta los límites del documento automáticamente y asigna un tipo de documento a cada subdocumento detectado.

El modelo solo está disponible para tenants en Europa y Estados Unidos.

Cuando usarlo

Utiliza el divisor entrenable en los siguientes escenarios:

Solicitudes de hipotecas: paquetes divididos que contienen ID, formularios de solicitud y extractos bancarios.
Incorporación de Healthcare: verifica la presencia de los documentos necesarios, como certificados médicos, formularios NPI e ID.
Reclamaciones de seguros: formularios de reclamación separados, registros médicos y recibos.
Procesamiento de facturas: gestiona paquetes de facturas de varios proveedores.
Limpieza de documentos: elimina las páginas irrelevantes para que solo se procese el contenido relevante en sentido descendente.

Crear un nuevo proyecto

Al crear un nuevo proyecto, los tenants ubicados en Europa y EE. UU. pueden habilitar el nuevo modelo de divisor y clasificador. Este modelo entrenable puede entrenarse para dividir y clasificar documentos complejos, lo que te permite procesar paquetes de documentos.

Sigue las instrucciones de esta página para crear un proyecto de Document Understanding^TM y habilitar el nuevo modelo de divisor y clasificador.

Requisitos previos

Antes de comenzar, asegúrate de que se cumplen las siguientes condiciones:

Su tenant se encuentra en Europa o Estados Unidos.
IntelligentOCR.Activities versión 6.27.0 o posterior está instalada.
Proyectos modernos está habilitado en tu tenant de Automation Cloud.
Tienes paquetes de documentos de muestra representativos de tu caso de uso de producción.

Abre Document Understanding.
Selecciona Crear proyecto.
Introduce el nombre del proyecto deseado.
Selecciona Moderna para utilizar la experiencia moderna.
Configura las Opciones avanzadas si es necesario.
1. Activa la alternancia Habilitar división para permitir que el modelo divida los documentos en archivos individuales antes de la clasificación. También puedes habilitar esta opción desde la pantalla Configuración del proyecto .
  Importante: cuando la opción Habilitar división está desactivada, el modelo se ejecuta en modo de solo clasificación:
  - La interfaz de división de anotaciones no está disponible.
  - Los documentos no se pueden dividir manualmente.
  - Para el entrenamiento, carga documentos del mismo tipo de una sola página o de varias páginas.
  - Todas las demás funcionalidades permanecen sin cambios.
2. Selecciona el método OCR en la lista desplegable Método OCR .
3. Introduce la clave API de OCR.
  Nota: este campo se rellena automáticamente si seleccionas un UiPath® OCR.
4. Introduce la URL de OCR. Para obtener la lista completa de URL para UiPath OCR, consulta la página Puntos finales públicos .
5. Elige si aplicar OCR en PDF. El valor predeterminado es Auto.
Selecciona Crear.

Resultado

Se ha creado su proyecto. La sección Crear estará disponible, donde puedes cargar documentos para su extracción o clasificación.

Elige una de las dos opciones disponibles:

Extraer datos de documentos: extrae campos específicos de tus documentos, como números de factura, fechas y totales. Utiliza esta opción cuando necesites extraer campos de documentos.
Clasificar y dividir documentos: ordena los documentos por tipo y separa varios documentos dentro de un solo archivo. Utiliza esta opción cuando necesites dividir y clasificar documentos.

Extraer datos de documentos

Selecciona un tipo de documento.
Selecciona Cargar o arrastra y suelta tus archivos dentro del nuevo tipo de documento. Espera a que finalice la carga.

Clasificar y dividir documentos

Ciertos archivos complejos contienen varios tipos de documentos. El divisor entrenable detecta dónde comienza y termina cada subdocumento, y clasifica cada sección en consecuencia.

Selecciona Clasificar y dividir documentos.
Carga tus paquetes de documentos. Espera a que finalice la carga y el procesamiento.
Seleccione un documento de la sección de carga.
Selecciona Dividir. Se abre la interfaz de división de anotaciones.
Nota: si el proyecto ya tiene un modelo entrenado, los documentos cargados se anotan previamente utilizando ese modelo. Esto ayuda a acelerar la anotación y te permite revisar los resultados de la predicción en nuevos documentos.
Selecciona Nuevo tipo de documento para crear un tipo de documento para cada elemento de tu taxonomía. Elija un tipo de documento predefinido o cree uno personalizado.
Para los tipos de documentos personalizados, proporciona lo siguiente:
- Nombre: un nombre claro y descriptivo para el tipo de documento.
- Descripción: de una a tres frases que explican el propósito del documento y lo que lo diferencia de tipos similares.
- Indicadores clave: campos o términos separados por comas que identifican de forma única este tipo de documento.
Las descripciones y los indicadores clave afectan directamente a la precisión del modelo. Si las puntuaciones de clasificación son bajas, refina las descripciones antes de añadir más datos de entrenamiento.

Ejemplo para un tipo de documento Factura:
- Descripción: una solicitud de pago formal emitida por un vendedor a un comprador, que enumera los elementos de línea, las cantidades y los importes totales adeudados.
- Indicadores clave: número de factura, fecha de factura, importe total, información del vendedor, información del comprador, condiciones de pago
Consejos para escribir descripciones eficaces:
- Incluye terminología específica para el tipo de documento.
- Si dos tipos de documentos se confunden con frecuencia, añade detalles distintivos a ambas descripciones.
Asigna las páginas no necesarias para el procesamiento posterior al tipo Desconocido . Esto incluye las portadas, las páginas en blanco y las hojas de separación. El modelo predice estas páginas como Desconocidas en tiempo de ejecución.
Selecciona los límites entre los tipos de documentos para indicar dónde comienza y termina cada documento.
Asigna cada rango de páginas a un tipo de documento utilizando el menú desplegable.
Selecciona Confirmar cuando hayas terminado de anotar el documento.

Resultado

Cada subdocumento aparece bajo su tipo de documento correspondiente en la sección Crear . Cada subdocumento está preanotado con el esquema de su tipo de documento asignado.

Mejores prácticas de entrenamiento

Entrena con paquetes de documentos de producción originales y no divididos, no con documentos individuales previamente divididos.

El modelo aprende los patrones de agrupación de documentos del contexto en torno a cada tipo de documento: lo que aparece antes y después en un paquete real. El entrenamiento en documentos previamente divididos elimina este contexto y reduce la precisión de la división.

Enfoque recomendado:

Cargar paquetes de producción que contengan varios tipos de documentos.
Incluye paquetes que representen el rango de pedidos y recuentos de documentos vistos en producción.
Apunta a un conjunto de datos equilibrado en todos los tipos de documentos.

Nota: el entrenamiento en documentos predivididos produce un modelo de trabajo, pero la precisión de la división es menor que cuando se entrena en paquetes originales.

Entrenamiento del modelo

El entrenamiento del modelo se inicia automáticamente después de que se cumplan las dos condiciones siguientes:

Se han creado y anotado al menos cinco documentos secundarios.
Nota: por ejemplo, si utilizas un único PDF, debe contener al menos cinco subdocumentos. Si utilizas dos PDF, uno debe contener al menos dos documentos secundarios y el otro al menos tres.
se ha confirmado un documento.

El estado de entrenamiento es visible en la esquina superior derecha del panel Clasificación .

Requisitos de datos de entrenamiento

Requisitos	Detalles
Tipos de documentos mínimos	1
Muestras totales mínimas	5 documentos en todos los tipos de documentos
Muestras mínimas por tipo	1
Recomendado para obtener resultados fiables	50 a 100 paquetes
Tamaño máximo del documento	160 MB o 500 páginas
División de entrenamiento/prueba	Automático: 80 % de entrenamiento, 20 % de prueba

Mejorar los resultados del entrenamiento

Cuando el rendimiento no sea satisfactorio, utiliza uno de estos enfoques:

Refina las descripciones y los indicadores clave de los tipos de documentos de bajo rendimiento.
Añade más muestras de entrenamiento para tipos de documentos con baja precisión.

Predicciones de división y clasificación

Cada vez que se entrena un nuevo modelo, todos los documentos del proyecto reciben predicciones del modelo entrenado. Esto te permite revisar el rendimiento del modelo de clasificación.

La columna Tipo muestra la verdad sobre el terreno: el tipo de documento como anotado. La columna Tipo previsto muestra el tipo previsto por el modelo.

De forma predeterminada, solo se muestran los paquetes de documentos. Para ver los documentos secundarios dentro de cada paquete, selecciona Ver y marca Incluir documentos secundarios.

Las predicciones también están disponibles en la interfaz de anotación habilitando la alternancia Mostrar predicción .

Comprender las métricas

Selecciona la pestaña Medida para revisar el rendimiento del modelo.

Métrica	Qué mide	Qué hacer si es bajo
Dividir F1	Precisión de la detección de límites de documentos, independientemente de la clasificación	Añadir datos de entrenamiento con ejemplos de límites más variados
Clasificación F1	Precisión de la asignación del tipo de documento, independientemente de los límites	Añadir más páginas de entrenamiento para los tipos de documentos de bajo rendimiento
F1 general	Puntuación combinada: la asignación de límite y tipo debe ser correcta	Identifique si la división o la clasificación es inferior y aborde eso primero

Un subdocumento se cuenta como correcto solo cuando tanto la detección de límites como la asignación de tipos son correctas.

Nota: Los documentos grandes con muchas páginas Desconocidas en el conjunto de pruebas pueden reducir las puntuaciones de forma desproporcionada. Si las puntuaciones aparecen inesperadamente bajas, comprueba si los documentos atípicos están sesgando el conjunto de pruebas.

Consumir el modelo en tiempo de ejecución

A través de actividades de IntelligentOCR

Utiliza la actividad Clasificador de proyectos de Document Understanding del paquete IntelligentOCR. Cuando la división está habilitada en el proyecto, la actividad devuelve múltiples ResultadosDeClasificación, uno por subdocumento detectado. Itera sobre los resultados para realizar la validación o extracción en cada subdocumento.

A través de actividades de Document Understanding

Utiliza la actividad Clasificar documento .

A través de API

Utiliza el punto final classify . Cuando la división está habilitada en la versión del proyecto, el punto final realiza la división y devuelve los resultados de la clasificación para cada subdocumento identificado.

Importar y exportar

Exportar un conjunto de datos de modelo entrenado

Si una versión del proyecto contiene un clasificador de divisor entrenado, hay dos opciones de exportación disponibles:

Exportación del conjunto de datos de tipo de documento: exportación estándar de datos anotados.
Exportación de divisor y clasificador: exportación del proyecto completo, incluido el modelo entrenado.

Solo las versiones del proyecto con un clasificador de divisor entrenado aparecen en la lista desplegable Exportar divisor y clasificador .

Importar a un nuevo proyecto

La opción de importación está disponible en la página de clasificación vacía. La importación de un archivo zip asigna documentos a sus tipos de documentos y desencadena el entrenamiento automáticamente.

Limitaciones

Disponible solo en tenants ubicados en Europa y Estados Unidos.
Las páginas no se pueden reordenar ni eliminar en la interfaz de anotación.
La división de información no está disponible en la página Supervisar.
El reentrenamiento desde Action Center no es compatible con los modelos de división y clasificación.

En esta página

Información general
Cuando usarlo
Crear un nuevo proyecto
Extraer datos de documentos
Clasificar y dividir documentos
Mejores prácticas de entrenamiento
Entrenamiento del modelo
Predicciones de división y clasificación
Comprender las métricas
Consumir el modelo en tiempo de ejecución
Importar y exportar
Limitaciones

¿Te ha resultado útil esta página?

AnteriorCrear un proyecto

Sig.Importar documentos