- Información general
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Información general
- Actividades de Document Understanding
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Clasificador generativo
- Actividades relacionadas con la clasificación de documentos
- Asistente para configurar extractores de Entrenar el alcance de los extractores
- Visión general de entrenamiento de extracción de datos
- Actividades relacionadas con el entrenamiento de extracción de datos
- Entrenador de extractor con aprendizaje automático
- Consumo de datos
- Llamadas a API
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 941x: paquete ML
- 9465: paquete ML
- 990 - Paquete ML: vista previa
- ACORD125: paquete ML
- ACORD126 - Paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Pasaportes: paquete ML
- Nóminas - - Paquete ML
- Órdenes de compra: paquete ML
- Recibos: paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Requisitos de hardware
- Procesos
- Administrador de documentos
- Servicios de OCR
- Aprendizaje profundo
- Paneles de insights
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Actividades
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Visión general de entrenamiento de extracción de datos
El entrenamiento de extracción de datos es un componente del marco Document UnderstandingTM que ayuda a cerrar el bucle de comentarios para los extractores que son capaces de aprender de los comentarios humanos. Esto ayudaría a los extractores a funcionar mejor en los documentos posteriores (dependiendo de sus propias capacidades de aprendizaje).
Puedes crear procesos de Document Understanding que no contengan ningún componente de entrenamiento. Esto puede ocurrir por múltiples razones, de las cuales algunas son:
- los extractores que estás usando no admiten el reentrenamiento
- no deseas realizar un reentrenamiento, ya que prefieres que el proceso use siempre el mismo entrenamiento
- quieres actualizar el entrenamiento del extractor sin conexión y estás gestionando sus actualizaciones fuera de tu proceso de DU.
Sin embargo, el entrenamiento de tus extractores como parte del uso regular del proceso es muy beneficioso en la mayoría de los casos, porque los extractores pueden obtener sus propios datos de entrenamiento y realizar sus propias actualizaciones ingiriendo la información de validación humana, sin requerir que actualices tus flujos de trabajo ya existentes. Se convierten, por así decirlo, en algoritmos de autoaprendizaje que pueden enseñarse a sí mismos a actuar mejor en el futuro, basándose en lo que los humanos han validado como datos correctos.
El entrenamiento de la extracción de datos se realiza a través de la actividad Entrenar el alcance de los Extractores. Puedes entrenar uno o más extractores, ya que la actividad de ámbito tiene la función de configurar y ejecutar uno o más algoritmos para el entrenamiento de extractores de una sola vez.
El entrenamiento de la extracción de datos suele ejecutarse tras la validación de la extracción de datos: solo los comentarios confirmados por humanos deben enviarse a los clasificadores para el entrenamiento, para garantizar la precisión de los datos de entrenamiento recibidos por los algoritmos.
El entrenamiento de la extracción de datos debe realizarse tanto en el caso de que los datos extraídos automáticamente sean correctos (no se requieran correcciones) como en el caso de que haya correcciones humanas. Esto se debe a que ambos casos son útiles para que los algoritmos aprendan.
Puedes entrenar tanto los extractores que se han usado en el componente de extracción de datos como los extractores que no se han usado para la predicción de la extracción de datos. Este último enfoque se usa para recopilar datos de entrenamiento y entrenar un extractor desde cero, con la intención de ponerlo en práctica más adelante añadiéndolo a los flujos de trabajo de Document Understanding.
En resumen, esto es lo que hace Entrenar el alcance de los Extractores:
- Proporciona a todos los entrenadores de extractores (algoritmos de entrenamiento) las configuraciones necesarias para su ejecución.
- Acepta uno o más entrenadores extractores.
- Permite el filtrado a nivel de tipo de documento y de campo, al igual que asignar la taxonomía entre la taxonomía del proyecto y cualquier taxonomía interna del extractor.
Entrenar el alcance de los extractores te permite configurarlo mediante el asistente Configurar los extractores. Es posible personalizar:
- qué tipos de documentos y qué campos se envían para su formación a cada formador de extractores,
- cuál es la asignación de taxonomía, a nivel de tipo de documento y de campo, entre la taxonomía del proyecto y la taxonomía interna del extractor (si la hay).
Entrenar el alcance de los Extractores también te permite identificar de manera única un par de actividades de Entrenador de Extractores, usando la misma string Alias del marco tanto en el ámbito de extracción de datos como en el ámbito de entrenamiento.
En la actualidad, solo el extractor de aprendizaje automático tiene capacidad de entrenamiento/reentrenamiento. La actividad se encuentra en el paquete UiPath.DocumentUnderstanding.ML.Activities, y su actividad de entrenamiento se llama Entrenador de extractor con aprendizaje automático.