Guía del usuario de Document Understanding

ENTREGA:

Última actualización 12 de dic. de 2024

Procesos de evaluación

Un proceso de evaluación se utiliza para evaluar un modelo ML entrenado.

Configura el proceso de evaluación de la siguiente manera:

En el campo Tipo de proceso, selecciona Ejecución de evaluación.
En el campo Elegir la versión principal del paquete, selecciona una versión principal para tu paquete.
En el campo Elegir la versión secundaria del paquete, selecciona la versión secundaria que deseas evaluar.
En el campo Elegir conjunto de datos de evaluación, selecciona un conjunto de datos de evaluación representativo. Para obtener más información sobre la estructura del conjunto de datos, consulta la sección Formato del conjunto de datos.
En la sección Introducir parámetros, existe una variable de entorno, relevante para los procesos de evaluación, que puedes utilizar:
eval.redo_ocr que, establecida como Verdadero, te permite volver a ejecutar el OCR cuando ejecutes el proceso para evaluar el impacto del OCR en la precisión de la extracción. Esto presupone que se ha configurado un motor OCR cuando se ha creado el paquete ML.
El control deslizante de Habilitar GPU está desactivado de manera predeterminada, en cuyo caso el proceso se ejecuta en la CPU. Se recomienda encarecidamente que los procesos de evaluación se ejecuten únicamente en la CPU.
Selecciona una de las opciones cuando debe ejecutarse el proceso: Ejecutar ahora, Basado en tiempo o Recurrente.
Tras configurar todos los campos, haz clic en Crear. El proceso se creará.

En el caso de un proceso de evaluación, el panel de resultados también incluye una carpeta artifacts / eval_metrics que contiene dos archivos:

evaluation_default.xlsx es una hoja de cálculo de Excel con tres hojas diferentes:
La primera hoja presenta un resumen de las puntuaciones globales y de las puntuaciones por lote, para cada campo: Regular, Columna y Clasificación. También se proporciona un porcentaje de los documentos correctamente extraídos, tanto para cada lote como para el conjunto de los documentos.
La segunda hoja presenta una comparación paralela, codificada por colores, de los Campos regulares, para aumentar la precisión de los documentos. Los documentos más inexactos se presentan en la parte superior para facilitar el diagnóstico y la resolución de problemas.
La tercera hoja presenta una comparación paralela, codificada por colores, de los campos de columna.
Todas las puntuaciones mostradas en el archivo de Excel representan puntuaciones de precisión.
evaluation_metrics_default.txt contiene las puntuaciones de F1 de los campos predichos.