Comprensión de documentos: descripción general del entrenamiento de extracción de datos

document-understanding

2022.4

true

Guía del usuario de Document Understanding

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Visión general de entrenamiento de extracción de datos

Qué es el entrenamiento de extracción de datos

El entrenamiento de extracción de datos es un componente del marco de Document Understanding que ayuda a cerrar el bucle de retroalimentación para los extractores que son capaces de aprender de los comentarios humanos. Esto ayudaría a los extractores a obtener mejores resultados en los documentos adicionales (en función de sus propias capacidades de aprendizaje).

Cuándo debe usarse el entrenamiento de extracción de datos

Puedes crear procesos de Document Understanding que no contengan ningún componente de entrenamiento. Esto puede ocurrir por múltiples razones, de las cuales algunas son:

los extractores que estás usando no admiten el reentrenamiento
no deseas realizar un reentrenamiento, ya que prefieres que el proceso use siempre el mismo entrenamiento
quieres actualizar el entrenamiento del extractor sin conexión y estás gestionando sus actualizaciones fuera de tu proceso de DU.

Sin embargo, en la mayoría de casos, el entrenamiento de tus extractores como parte del uso habitual de procesos resulta muy beneficioso, porque los extractores pueden obtener sus propios datos de entrenamiento y realizar sus propias actualizaciones ingiriendo la información de validación humana, sin que sean necesario actualizar tus flujos de trabajo ya existentes. Se convierten, por así decirlo, en algoritmos autodidactas capaces de enseñarse a sí mismos a actuar mejor en el futuro, basándose en lo que los humanos hayan validado como datos correctos.

Cómo utilizar el componente de entrenamiento de extracción de datos

El entrenamiento de la extracción de datos se realiza a través de la actividad Entrenar el alcance de los Extractores. Puedes entrenar uno o más extractores, ya que la actividad de ámbito tiene la función de configurar y ejecutar uno o más algoritmos para el entrenamiento de extractores de una sola vez.

El entrenamiento de la extracción de datos suele ejecutarse tras la validación de la extracción de datos: solo los comentarios confirmados por humanos deben enviarse a los clasificadores para el entrenamiento, para garantizar la precisión de los datos de entrenamiento recibidos por los algoritmos.

El entrenamiento de la extracción de datos debe realizarse tanto en el caso de que los datos extraídos automáticamente sean correctos (no se requieran correcciones) como en el caso de que haya correcciones humanas. Esto se debe a que ambos casos son útiles para que los algoritmos aprendan de ellos.

Puedes entrenar tanto los extractores que se han usado en el componente de extracción de datos como los extractores que no se han usado para la predicción de la extracción de datos. Este último enfoque se usa para recopilar datos de entrenamiento y entrenar un extractor desde cero, con la intención de ponerlo en práctica más adelante añadiéndolo a los flujos de trabajo de Document Understanding.

En resumen, esto es lo que hace Entrenar el alcance de los Extractores:

Proporciona a todos los Entrenadores de extractores (algoritmos de entrenamiento) las configuraciones necesarias para que puedan ejecutarse.
Acepta uno o más entrenadores extractores.
Permite el filtrado a nivel de tipo de documento y de campo, al igual que asignar la taxonomía entre la taxonomía del proyecto y cualquier taxonomía interna del extractor.

Entrenar el alcance de los extractores te permite configurarlo mediante el asistente Configurar los extractores. Es posible personalizar:

qué tipos de documentos y qué campos se envían para su formación a cada formador de extractores,
cuál es la asignación de taxonomía, a nivel de tipo de documento y de campo, entre la taxonomía del proyecto y la taxonomía interna del extractor (si la hay).

Entrenar el alcance de los Extractores también te permite identificar de manera única un par de actividades de Entrenador de Extractores, usando la misma string Alias del marco tanto en el ámbito de extracción de datos como en el ámbito de entrenamiento.

Entrenadores de extractores disponibles

En la actualidad, solo el extractor de aprendizaje automático tiene capacidad de entrenamiento/reentrenamiento. La actividad se encuentra en el paquete UiPath.DocumentUnderstanding.ML.Activities, y su actividad de entrenamiento se llama Entrenador de extractor con aprendizaje automático.

En esta página

Qué es el entrenamiento de extracción de datos
Cuándo debe usarse el entrenamiento de extracción de datos
Cómo utilizar el componente de entrenamiento de extracción de datos
Entrenadores de extractores disponibles

¿Te ha resultado útil esta página?

AnteriorEntrenamiento de extracción de datos

Sig.Asistente para configurar extractores de Entrenar el alcance de los extractores