- Información general
- Primeros pasos
- Actividades
- Paneles de insights
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Información general
- Actividades de Document Understanding
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Clasificador generativo
- Actividades relacionadas con la clasificación de documentos
- Consumo de datos
- Llamadas a API
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 941x: paquete ML
- 9465: paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasAustralia: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Nóminas - - Paquete ML
- Pasaportes: paquete ML
- Órdenes de compra: paquete ML
- Recibos: paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Limitaciones de tráfico
- Configuración de OCR
- Procesos
- Servicios de OCR
- Idiomas admitidos
- Aprendizaje profundo
- Licencia
Acerca de los procesos
Document UnderstandingTM ML Packages can run all three types of pipelines:
Una vez completado, una ejecución de un proceso tiene outputs y registros asociados. Para ver esta información, en la pestaña Procesos de la barra lateral izquierda, haz clic en un proceso para abrir la vista de procesos que consiste en lo siguiente:
- los detalles del proceso, como el tipo, el nombre y la versión del Paquete ML, el conjunto de datos, el uso de la GPU, los parámetros y el tiempo de ejecución
- el panel de Salidas; que siempre incluye un archivo
_results.json
con un resumen de los detalles del proceso - la página Registros; los registros también pueden obtenerse en la pestaña Registros ML en la barra lateral izquierda
evaluation_scores_<package name>.txt
: este archivo contiene puntuaciones de precisión para todos los campos.evaluation_<package name>.xlsx
: este archivo contiene un desglose detallado de la precisión por campo y por lote, así como una comparación en paralelo para cada campo, con resaltados de color para los campos omitidos (rojo) o parcialmente coincidentes (amarillo).evaluation_F1_scores.txt
: este archivo contiene las puntuaciones F1 de todos los campos.
Las coincidencias parciales que usan la distancia de Levenshtein son el método de puntuación predeterminado en los campos con Tipo de contenido: Cadena. Todos los demás tipos de contenido (fechas, números, números de identificación, números de teléfono) solo usan la puntuación de coincidencia exacta.
Para los campos de cadena, puedes cambiar esta configuración en la pestaña Avanzado del cuadro de diálogo Configuración de campo en la vista Tipo de documento de Document Understanding.
Por ejemplo, si un conjunto de datos de evaluación tiene 100 documentos y un campo, por ejemplo, Número de orden de compra, aparece en la mitad de los documentos, entonces si el modelo predijo 40 correctamente y 10 parcialmente correctos con una distancia de Levenshtein de 0,8, entonces la la precisión sería (40 + 10 x 0,8 + 50) / 100 = 98%.
Tenga en cuenta que los 50 documentos en los que falta el campo y el modelo no predijo nada también se cuentan como predicciones correctas.
En los procesos de entrenamiento, las puntuaciones se calculan en el conjunto de datos de validación. El conjunto de datos de validación es un subconjunto seleccionado aleatoriamente del 20% del conjunto de datos de entrenamiento total enviado en el proceso de entrenamiento.
Los procesos de entrenamiento o los procesos completos también pueden usarse para:
- Ajuste preciso de los modelos ML con datos de la Estación de validación
- Ajuste preciso automático de un Modelo ML
Losprocesos de entrenamiento y los procesos completos admiten conjuntos de entrenamiento de un máximo de 18 000 páginas etiquetadas.