- Información general
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Información general
- Actividades de Document Understanding
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Clasificador generativo
- Actividades relacionadas con la clasificación de documentos
- Consumo de datos
- Llamadas a API
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 941x: paquete ML
- 9465: paquete ML
- 990 - Paquete ML: vista previa
- ACORD125: paquete ML
- ACORD126 - Paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Pasaportes: paquete ML
- Nóminas - - Paquete ML
- Órdenes de compra: paquete ML
- Recibos - paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Requisitos de hardware
- Procesos
- Administrador de documentos
- Servicios de OCR
- Idiomas admitidos
- Aprendizaje profundo
- Paneles de insights
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Licencia
- Actividades
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Guía del usuario de Document Understanding
Procesos de entrenamiento
Minimal dataset size For successfully running a Training pipeline, we strongly recommend minimum 10 documents and at least 5 samples from each labeled field in your dataset. Otherwise, the pipeline throws the following error: Dataset Creation Failed.
Training on GPU vs CPU For larger datasets, you need to train using GPU. Moreover, using a GPU for training is at least 10 times faster than using a CPU. For the maximum dataset size depeding on the version and infrastructure, check the following table. Table 1. Maximum dataset for each version
| Infraestructura | <2021.10.x | 2021.10.x | >2021.10.x |
|---|---|---|---|
| CPU | 500 páginas | 5000 páginas | 1000 páginas |
| GPU | 18 000 páginas | 18 000 páginas | 18 000 páginas |
For more information on dataset structure, check the Dataset format section.
Hay dos maneras de entrenar un modelo ML:
- entrenar un modelo desde cero
- reentrenamiento de un modelo listo para usar
El entrenamiento de un modelo desde cero puede hacerse con el paquete ML DocumentUnderstanding, que lo hace sobre el conjunto de datos proporcionado como entrada.
El reentrenamiento puede realizarse con paquetes ML listos para usar, como Facturas, Recibos, Órdenes de compra, Facturas de servicios públicos, Facturas de India, Facturas de Australia, etc. Básicamente, cualquier otro paquete ML de extracción de datos, excepto DocumentUnderstanding. El entrenamiento con uno de estos paquetes tiene una entrada adicional: un modelo base. Lo llamamos reentrenamiento porque no se parte de cero, sino de un modelo base. Este enfoque usa una técnica llamada Aprendizaje de transferencia, en la que el modelo aprovecha la información codificada en otro modelo: el preexistente. El modelo conserva parte de los conocimientos previos, pero también aprende de los nuevos datos. Sin embargo, a medida que aumenta el tamaño del conjunto de datos de entrenamiento, el modelo base preentrenado importa cada vez menos. Es relevante sobre todo para conjuntos de datos de entrenamiento de tamaño pequeño o medio (hasta 500-800 páginas).
Configura el proceso de entrenamiento como sigue:
-
In the Pipeline type field, select Train run.
-
In the Choose package field, select the package you created based on the DocumentUnderstanding ML Package.
-
In the Choose package major version field, select a major version for your package.
-
In the Choose package minor version field, select a minor version for your package. It is strongly recommended to always use minor version 0 (zero). Check the Choosing the minor version section for more information.
-
In the Choose input dataset field, select a dataset. For building high quality training datasets, you can check this tutorial.
-
In the Enter parameters section, enter any environment variables defined, and used by your pipeline, if any. For most use cases, no parameter needs to be specified; the model is using advanced techniques to find a performant configuration. However, here are some environment variables you could use:
-
model.epochsque personaliza el número de epochs para el proceso de entrenamiento (el valor predeterminado es 100).Nota:For larger datasets, containing more than 5000 pages, you can initially perform a full pipeline run with the default number of epochs. This allows you to evaluate the model’s accuracy. After that, you can decrease the number of epochs to about 30-40. This approach allows you to compare the accuracy of the results and determine if the reduction of epochs yields comparable precision. When using smaller datasets, in particular those with fewer than 5000 pages, you can maintain the default number of epochs.
-
Select whether to train the pipeline on GPU or on CPU. The Enable GPU slider is disabled by default, in which case the pipeline is trained on CPU.
-
Select one of the options when the pipeline should run: Run now, Time based or Recurring. In case you are using the
auto_retrainingvariable, select Recurring.
-
After you configure all the fields, select Create. The pipeline is created.
Este es un ejemplo de creación de un nuevo proceso de entrenamiento con un conjunto de datos previamente exportado a AI Center:
Elegir la versión menor
In most situations, minor version 0 should be chosen. This is because the larger and more diverse your training dataset, the better your model's performance. This principle aligns with the current state-of-the-art ML technology's goal of using large, high-quality, and representative training sets. Therefore, as you accumulate more training data for a model, you should add the data to the same dataset to further enhance the model's performance.
There are situations, however, where training on a minor version other than 0 makes sense. This is typically the case when a partner needs to service multiple customers in the same industry, but UiPath® doesn't have a pre-trained model optimized for that industry, geography, or document type.
In such a case, the partner might develop a pre-trained model using a variety of document samples from that industry (not from a single source, but from many for better generalization). This model would be used as a base model to train specific customer models, being trained on version 0 of the ML package. Following versions, like version 1, would be used to refine either the pre-trained model or create customer-specific models.
Sin embargo, para obtener buenos resultados, el modelo preentrenado debe ser imparcial y basarse en un conjunto de entrenamiento altamente diverso. Si el modelo base se optimiza para un cliente específico, puede no funcionar bien para otros clientes. En tal caso, utilizar la versión menor cero como modelo base produce mejores resultados.