Document Understanding: acerca de los procesos

document-understanding

latest

false

Guía del usuario clásica de Document Understanding

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Acerca de los procesos

Procesos en Document Understanding y cómo la extracción en un clic y las herramientas relacionadas simplifican el entrenamiento de los extractores y clasificadores.

Consejo:

La capacidad de entrenar extractores y clasificadores ahora es más conveniente al aprovechar las características Extracción en un clic y Clasificación en un clic .

Los paquetes ML de Document Understanding pueden ejecutar los tres tipos de procesos:

Una vez completado, una ejecución de un proceso tiene outputs y registros asociados. Para ver esta información, en la pestaña Procesos de la barra lateral izquierda, haz clic en un proceso para abrir la vista de procesos que consiste en lo siguiente:

los detalles del proceso, como el tipo, el nombre y la versión del Paquete ML, el conjunto de datos, el uso de la GPU, los parámetros y el tiempo de ejecución
el panel Salidas ; esto siempre incluye un archivo _results.json que contiene un resumen de los detalles del proceso
la página Registros; los registros también pueden obtenerse en la pestaña Registros ML en la barra lateral izquierda

Todos los procesos devuelven puntuaciones en tres archivos diferentes:

evaluation_scores_<package name>.txt : este archivo contiene puntuaciones de precisión para todos los campos.
evaluation_<package name>.xlsx : este archivo contiene un desglose detallado de la precisión por campo y por lote, así como una comparación en paralelo para cada campo, con resaltados de color para los campos omitidos (rojo) o parcialmente coincidentes (amarillo).
evaluation_F1_scores.txt : este archivo contiene las puntuaciones F1 de todos los campos.

La precisión se obtiene dividiendo el número de coincidencias entre el número total de predicciones. Una coincidencia obtiene una importancia de 1, mientras que una coincidencia parcial obtiene una importancia correspondiente a la distancia de Levenshtein entre la predicción y el valor real.

Las coincidencias parciales que usan la distancia de Levenshtein son el método de puntuación predeterminado en los campos con Tipo de contenido: Cadena. Todos los demás tipos de contenido (fechas, números, números de identificación, números de teléfono) solo usan la puntuación de coincidencia exacta.

Para los campos de cadena, puedes cambiar esta configuración en la pestaña Avanzado del cuadro de diálogo Configuración de campo en la vista Tipo de documento de Document Understanding.

Por ejemplo, si un conjunto de datos de evaluación tiene 100 documentos y un campo, por ejemplo, Número de orden de compra, aparece en la mitad de los documentos, entonces si el modelo predijo 40 correctamente y 10 parcialmente correctos con una distancia de Levenshtein de 0,8, entonces la la precisión sería (40 + 10 x 0,8 + 50) / 100 = 98%.

Tenga en cuenta que los 50 documentos en los que falta el campo y el modelo no predijo nada también se cuentan como predicciones correctas.

En los procesos de entrenamiento, las puntuaciones se calculan en el conjunto de datos de validación. El conjunto de datos de validación es un subconjunto seleccionado aleatoriamente del 20% del conjunto de datos de entrenamiento total enviado en el proceso de entrenamiento.

Los procesos de entrenamiento o los procesos completos también pueden usarse para:

Ajuste de los modelos ML con los datos de la estación de validación
Ajustar automáticamente un modelo ML
Nota:
Los procesos de entrenamiento y los procesos completos admiten conjuntos de entrenamiento de un máximo de 18 000 páginas etiquetadas.

¿Te ha resultado útil esta página?

AnteriorConfiguración de OCR

Sig.Términos y definiciones