document-understanding
2024.10
false
Guía del usuario de Document Understanding
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 11 de nov. de 2024

Visión general de entrenamiento de extracción de datos

Qué es el entrenamiento de extracción de datos

Data Extraction Training is a component in the Document UnderstandingTM Framework that helps in closing the feedback loop for extractors that are capable of learning from human feedback. This would help extractors perform better on subsequent documents (depending on their own learning capabilities).

Cuándo debe usarse el entrenamiento de extracción de datos

Puedes crear procesos de Document Understanding que no contengan ningún componente de entrenamiento. Esto puede ocurrir por múltiples razones, de las cuales algunas son:

  • los extractores que estás usando no admiten el reentrenamiento
  • no deseas realizar un reentrenamiento, ya que prefieres que el proceso use siempre el mismo entrenamiento
  • quieres actualizar el entrenamiento del extractor sin conexión y estás gestionando sus actualizaciones fuera de tu proceso de DU.

Sin embargo, el entrenamiento de tus extractores como parte del uso regular del proceso es muy beneficioso en la mayoría de los casos, porque los extractores pueden obtener sus propios datos de entrenamiento y realizar sus propias actualizaciones ingiriendo la información de validación humana, sin requerir que actualices tus flujos de trabajo ya existentes. Se convierten, por así decirlo, en algoritmos de autoaprendizaje que pueden enseñarse a sí mismos a actuar mejor en el futuro, basándose en lo que los humanos han validado como datos correctos.

Cómo utilizar el componente de entrenamiento de extracción de datos

El entrenamiento de la extracción de datos se realiza a través de la actividad Entrenar el alcance de los Extractores. Puedes entrenar uno o más extractores, ya que la actividad de ámbito tiene la función de configurar y ejecutar uno o más algoritmos para el entrenamiento de extractores de una sola vez.

El entrenamiento de la extracción de datos suele ejecutarse tras la validación de la extracción de datos: solo los comentarios confirmados por humanos deben enviarse a los clasificadores para el entrenamiento, para garantizar la precisión de los datos de entrenamiento recibidos por los algoritmos.

El entrenamiento de la extracción de datos debe realizarse tanto en el caso de que los datos extraídos automáticamente sean correctos (no se requieran correcciones) como en el caso de que haya correcciones humanas. Esto se debe a que ambos casos son útiles para que los algoritmos aprendan.

Puedes entrenar tanto los extractores que se han usado en el componente de extracción de datos como los extractores que no se han usado para la predicción de la extracción de datos. Este último enfoque se usa para recopilar datos de entrenamiento y entrenar un extractor desde cero, con la intención de ponerlo en práctica más adelante añadiéndolo a los flujos de trabajo de Document Understanding.

En resumen, esto es lo que hace Entrenar el alcance de los Extractores:

  • Proporciona a todos los entrenadores de extractores (algoritmos de entrenamiento) las configuraciones necesarias para su ejecución.
  • Acepta uno o más entrenadores extractores.
  • Permite el filtrado a nivel de tipo de documento y de campo, al igual que asignar la taxonomía entre la taxonomía del proyecto y cualquier taxonomía interna del extractor.

Entrenar el alcance de los extractores te permite configurarlo mediante el asistente Configurar los extractores. Es posible personalizar:

  • qué tipos de documentos y qué campos se envían para su formación a cada formador de extractores,
  • cuál es la asignación de taxonomía, a nivel de tipo de documento y de campo, entre la taxonomía del proyecto y la taxonomía interna del extractor (si la hay).

Entrenar el alcance de los Extractores también te permite identificar de manera única un par de actividades de Entrenador de Extractores, usando la misma string Alias del marco tanto en el ámbito de extracción de datos como en el ámbito de entrenamiento.

Entrenadores de extractores disponibles

En la actualidad, solo el extractor de aprendizaje automático tiene capacidad de entrenamiento/reentrenamiento. La actividad se encuentra en el paquete UiPath.DocumentUnderstanding.ML.Activities, y su actividad de entrenamiento se llama Entrenador de extractor con aprendizaje automático.

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.