- Información general
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Clasificador de CapturaFlexible
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Visión general de entrenamiento de extracción de datos
- Asistente para configurar extractores de Entrenar el alcance de los extractores
- Entrenador de extractor con aprendizaje automático
- Actividades relacionadas con el entrenamiento de extracción de datos
- Consumo de datos
- Paquetes ML
- Procesos
- Administrador de documentos
- Servicios de OCR
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Aprendizaje profundo
- Licencia
- Referencias
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Visión general de entrenamiento de extracción de datos
El entrenamiento de extracción de datos es un componente del marco de Document Understanding que ayuda a cerrar el bucle de retroalimentación para los extractores que son capaces de aprender de los comentarios humanos. Esto ayudaría a los extractores a obtener mejores resultados en los documentos posteriores (en función de su propia capacidad de aprendizaje).
Puedes crear procesos de Document Understanding que no contengan ningún componente de entrenamiento. Esto puede ocurrir por múltiples razones, de las cuales algunas son:
- los extractores que estás usando no admiten el reentrenamiento
- no deseas realizar un reentrenamiento, ya que prefieres que el proceso use siempre el mismo entrenamiento
- quieres actualizar el entrenamiento del extractor sin conexión y estás gestionando sus actualizaciones fuera de tu proceso de DU.
Sin embargo, el entrenamiento de tus extractores como parte del uso regular del proceso es muy beneficioso en la mayoría de los casos, porque los extractores pueden obtener sus propios datos de entrenamiento y realizar sus propias actualizaciones ingiriendo la información de validación humana, sin requerir que actualices tus flujos de trabajo ya existentes. Se convierten, por así decirlo, en algoritmos de autoaprendizaje que pueden enseñarse a sí mismos a actuar mejor en el futuro, basándose en lo que los humanos han validado como datos correctos.
El entrenamiento de la extracción de datos se realiza a través de la actividad Entrenar el alcance de los Extractores. Puedes entrenar uno o más extractores, ya que la actividad de ámbito tiene la función de configurar y ejecutar uno o más algoritmos para el entrenamiento de extractores de una sola vez.
El entrenamiento de la extracción de datos suele ejecutarse tras la validación de la extracción de datos: solo los comentarios confirmados por humanos deben enviarse a los clasificadores para el entrenamiento, para garantizar la precisión de los datos de entrenamiento recibidos por los algoritmos.
El entrenamiento de la extracción de datos debe realizarse tanto en el caso de que los datos extraídos automáticamente sean correctos (no se requieran correcciones) como en el caso de que haya correcciones humanas. Esto se debe a que ambos casos son útiles para que los algoritmos aprendan.
Puedes entrenar tanto los extractores que se han usado en el componente de extracción de datos como los extractores que no se han usado para la predicción de la extracción de datos. Este último enfoque se usa para recopilar datos de entrenamiento y entrenar un extractor desde cero, con la intención de ponerlo en práctica más adelante añadiéndolo a los flujos de trabajo de Document Understanding.
En resumen, esto es lo que hace Entrenar el alcance de los Extractores:
- Proporciona a todos los entrenadores de extractores (algoritmos de entrenamiento) las configuraciones necesarias para su ejecución.
- Acepta uno o más entrenadores extractores.
- Permite el filtrado a nivel de tipo de documento y de campo, al igual que asignar la taxonomía entre la taxonomía del proyecto y cualquier taxonomía interna del extractor.
Entrenar el alcance de los extractores te permite configurarlo mediante el asistente Configurar los extractores. Es posible personalizar:
- qué tipos de documentos y qué campos se envían para su formación a cada formador de extractores,
- cuál es la asignación de taxonomía, a nivel de tipo de documento y de campo, entre la taxonomía del proyecto y la taxonomía interna del extractor (si la hay).
Entrenar el alcance de los Extractores también te permite identificar de manera única un par de actividades de Entrenador de Extractores, usando la misma string Alias del marco tanto en el ámbito de extracción de datos como en el ámbito de entrenamiento.
En la actualidad, solo el extractor de aprendizaje automático tiene capacidad de entrenamiento/reentrenamiento. La actividad se encuentra en el paquete UiPath.DocumentUnderstanding.ML.Activities, y su actividad de entrenamiento se llama Entrenador de extractor con aprendizaje automático.