document-understanding
latest
false
- Información general
- Primeros pasos
- Actividades
- Paneles de insights
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Información general
- Actividades de Document Understanding
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Clasificador generativo
- Actividades relacionadas con la clasificación de documentos
- Consumo de datos
- Llamadas a API
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 941x: paquete ML
- 9465: paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasAustralia: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Nóminas - - Paquete ML
- Pasaportes: paquete ML
- Órdenes de compra: paquete ML
- Recibos: paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Limitaciones de tráfico
- Configuración de OCR
- Procesos
- Servicios de OCR
- Idiomas admitidos
- Aprendizaje profundo
- Licencia
Procesos completos
Guía del usuario de Document Understanding
Última actualización 12 de dic. de 2024
Procesos completos
Un proceso completo ejecuta conjuntamente un proceso de entrenamiento y un proceso de evaluación.
Importante:
Tamaño mínimo del conjunto de datos
Para ejecutar correctamente un proceso de entrenamiento, recomendamos encarecidamente un mínimo de 10 documentos y al menos 5 muestras de cada campo etiquetado de tu conjunto de datos. En caso contrario, el proceso genera el siguiente error:
Dataset Creation Failed
.
Entrenamiento en la GPU frente a la CPU
- Para conjuntos de datos más grandes, debes entrenar con GPU. Además, usar una GPU para el entrenamiento es al menos 10 veces más rápido que una CPU.
- El entrenamiento en la CPU solo es compatible con conjuntos de datos de hasta 5000 páginas para paquetes ML v21.10.x y de hasta 1000 páginas para otras versiones de paquetes ML.
- El entrenamiento en la CPU estaba limitado a 500 páginas antes de la versión 2021.10, ascendió a 5000 páginas para la 2021.10, y con la 2022.4 regresó a un máximo de 1000 páginas.
Configura el proceso de entrenamiento como sigue:
- En el campo Tipo de proceso, selecciona Ejecución de proceso completo.
- En el campo Elegir paquete, selecciona el paquete que deseas entrenar y evaluar.
- En el campo Elegir la versión principal del paquete, selecciona una versión principal para tu paquete.
- En el campo Elegir la versión secundaria del paquete, selecciona una versión secundaria para tu paquete. Se recomienda encarecidamente usar siempre la versión menor 0 (cero).
- En el campo Elegir conjunto de datos de entrada, selecciona un conjunto de datos de entrenamiento representativo.
- En el campo Elegir conjunto de datos de evaluación, selecciona un conjunto de datos de evaluación representativo.
- En la sección Introducir parámetros, escribe cualquier variable de entorno definida y utilizada por tu proceso, si la hubiera. Para la mayoría de los casos de uso, no es necesario especificar ningún parámetro; el modelo usa técnicas avanzadas para encontrar una configuración eficaz. Sin embargo, aquí hay algunas variables de entorno que podrías usar:
auto_retraining
, que te permite completar el Bucle de reentrenamiento automático; si la variable se establece como Verdadero, el conjunto de datos de entrada debe ser la carpeta de exportación asociada a la sesión de etiquetado en la que se etiquetan los datos; si la variable permanece como Falso, el conjunto de datos de entrada debe corresponder al siguiente formato del conjunto de datos.model.epochs
que personaliza el número de epochs para el proceso de entrenamiento (el valor predeterminado es 100).- Selecciona si quieres entrenar el proceso en la GPU o en la CPU. El control deslizante Habilitar GPU está deshabilitado de forma predeterminada, en cuyo caso el proceso se entrena en la CPU. Usar una GPU para el entrenamiento es al menos 10 veces más rápido que usar una CPU. Además, el entrenamiento en la CPU solo es posible para conjuntos de datos de hasta 1000 imágenes. Para conjuntos de datos más grandes, es necesario entrenar con la GPU.
-
Selecciona una de las opciones sobre cuándo debe ejecutarse el proceso: Ejecutar ahora, Basado en el tiempo o Recurrente. Si estás usando la variable
auto_retraining
, selecciona Recurrente. - Tras configurar todos los campos, haz clic en Crear. El proceso se creará.
Para procesos completos, el panel de resultados también incluye una carpeta artifacts / eval_metrics que contiene dos archivos:
evaluation_default.xlsx
es una hoja de cálculo de Excel con una comparación paralela de datos reales frente al valor predicho para cada campo predicho por el modelo, así como una métrica de precisión por documento, en orden de precisión ascendente. Por lo tanto, los documentos más inexactos se presentan en la parte superior para facilitar el diagnóstico y la resolución de problemas.evaluation_metrics_default.txt
contiene las puntuaciones F1 de los campos que se predijeron.En el caso de los elementos de línea, se obtiene una puntuación global para el conjunto de todas las columnas.