- Información general
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Información general
- Actividades de Document Understanding
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Clasificador generativo
- Actividades relacionadas con la clasificación de documentos
- Consumo de datos
- Llamadas a API
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 941x: paquete ML
- 9465: paquete ML
- 990 - Paquete ML: vista previa
- ACORD125: paquete ML
- ACORD126 - Paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Pasaportes: paquete ML
- Nóminas - - Paquete ML
- Órdenes de compra: paquete ML
- Recibos - paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Requisitos de hardware
- Procesos
- Administrador de documentos
- Servicios de OCR
- Idiomas admitidos
- Aprendizaje profundo
- Paneles de insights
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Licencia
- Actividades
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Guía del usuario de Document Understanding
Procesos completos
Un proceso completo ejecuta conjuntamente un proceso de entrenamiento y un proceso de evaluación.
Minimal dataset size For successfully running a Training pipeline, we strongly recommend at least 25 documents and at least 10 samples from each labeled field in your dataset. Otherwise, the pipeline throws the following error: Dataset Creation Failed. **
Training on GPU vs CPU**
- Para conjuntos de datos más grandes, es necesario entrenar con la GPU. Además, el uso de una GPU (AI Robot Pro) para el entrenamiento es como mínimo 10 veces más rápido que el uso de una CPU (AI Robot).
- El entrenamiento en la CPU solo es compatible con conjuntos de datos de hasta 5000 páginas para paquetes ML v21.10.x y de hasta 1000 páginas para otras versiones de paquetes ML.
- El entrenamiento en la CPU estaba limitado a 500 páginas antes de la versión 2021.10, ascendió a 5000 páginas para la 2021.10, y con la 2022.4 regresó a un máximo de 1000 páginas.
Entrenar y evaluar un modelo al mismo tiempo
Configura el proceso de entrenamiento como sigue:
-
En el campo Tipo de proceso, selecciona Ejecución de proceso completo.
-
In the Choose package field, select the package you want to train and evaluate.
-
In the Choose package major version field, select a major version for your package.
-
In the Choose package minor version field, select a minor version for your package. It is strongly recommended to always use minor version 0 (zero).
-
In the Choose input dataset field, select a representative training dataset.
-
In the Choose evaluation dataset field, select a representative evaluation dataset.
-
In the Enter parameters section, enter any environment variables defined, and used by your pipeline, if any. For most use cases, no parameter needs to be specified; the model is using advanced techniques to find a performant configuration. However, here are some environment variables you could use:
-
model.epochsque personaliza el número de epochs para el proceso de entrenamiento (el valor predeterminado es 100). -
Select whether to train the pipeline on GPU or on CPU. The Enable GPU slider is disabled by default, in which case the pipeline is trained on CPU. Using a GPU (AI Robot Pro) for training is at least 10 times faster than using a CPU (AI Robot). Moreover, training on CPU is supported for datasets up to 1000 images in size only. For larger datasets, you need to train using GPU.
-
Select one of the options when the pipeline should run: Run now, Time based or Recurring. In case you are using the
auto_retrainingvariable, select Recurring.
After you configure all the fields, select Create. The pipeline is created.
Artefactos
En el caso de un proceso de evaluación, el panel de resultados también incluye una carpeta artifacts / eval_metrics que contiene dos archivos:

-
evaluation_default.xlsxes una hoja de cálculo de Excel con una comparación paralela de datos reales frente al valor predicho para cada campo predicho por el modelo, así como una métrica de precisión por documento, en orden de precisión ascendente. Por lo tanto, los documentos más inexactos se presentan en la parte superior para facilitar el diagnóstico y la resolución de problemas. -
evaluation_metrics_default.txtcontiene las puntuaciones F1 de los campos que se predijeron.En el caso de los elementos de línea, se obtiene una puntuación global para el conjunto de todas las columnas.