- Primeros pasos
- Componentes de marco
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Clasificador de CapturaFlexible
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Paquetes ML
- Procesos
- Gestor de datos
- Servicios de OCR
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Aprendizaje profundo
- Licencia
- Referencias
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guía del usuario de Document Understanding
Clasificador inteligente de palabra clave
El clasificador inteligente de palabras claves es un clasificador que usa el vector de palabras que aprende de los archivos de ciertos tipos de documentos para realizar la clasificación de los mismos.
El algoritmo se crea en torno al concepto de contenido repetido para un mismo tipo de documento y parte de la premisa de que los tipos de documentos tienen una serie de palabras que suelen aparecer en esos tipos de documentos, lo que permite un cálculo de similitud vectorial.
Al clasificar un archivo en un tipo de documento, el clasificador inteligente de palabras claves:
- encuentra el vector de palabras más parecido a un archivo,
- informa sobre el tipo de documento con mayor puntuación, con las palabras principales subyacentes que coinciden.
El clasificador inteligente de palabras claves también tiene la capacidad de dividir los archivos, lo que significa que puede clasificar más de una clase para un archivo dado, para rangos de páginas separados.
Deberías plantearte el uso de este clasificador si:
- tus archivos contienen uno o más tipos de documentos dentro de un mismo archivo
- tus tipos de documentos son relativamente fáciles de diferenciar en cuanto al contenido.
Para utilizar este clasificador, debes utilizar tu clave API de Automation Cloud Document Understanding o alojar tu propia instancia del clasificador inteligente de palabras claves en AI Center local.
El Clasificador inteligente de palabras clave se puede configurar en tiempo de diseño, simplemente accediendo al asistente Administrar aprendizaje de la actividad. El mismo asistente puede utilizarse para revisar los datos recopilados durante la fase de entrenamiento de la clasificación de documentos, abriendo el mismo asistente con una ruta del archivo de aprendizaje actualizada.
Este asistente te permite configurar y administrar los datos de entrenamiento utilizados por esta actividad para identificar el tipo de documento y para clasificar los documentos. Fue creado para adaptarse a la necesidad de editar una ruta de archivo. Si en su lugar utilizamos una opción de Datos de aprendizaje con una variable, entonces se te preguntará si quieres editar una ruta de archivo específica o abortar esta operación.
- Añade una actividad Clasificador inteligente de palabras clave/Entrenador del clasificador inteligente de palabras clave a tu flujo de trabajo.
- Configura tu actividad Clasificador inteligente de palabras clave añadiendo la ruta de un archivo
.json
.- Si no se proporciona una ruta y se hace clic en la opción Administrar aprendizaje, entonces se mostrará una ventana emergente solicitando una entrada de Ruta del archivo de aprendizaje. Una vez proporcionada la ruta se abrirá el asistente.
- Se puede añadir una variable en lugar de un archivo
.json
, pero, dado que el asistente no puede aplicar el patrón de aprendizaje a una variable DatosDeAprendizaje, solicita una ruta de archivo específica que se puede editar.
- Haz clic en la opción Administrar aprendizaje.
- Se abrirá la ventana del Asistente.
- Se abrirá la ventana del Asistente.
- Si no se proporciona ninguna ruta y se hace clic en la opción Administrar aprendizaje, entonces se mostrará una ventana emergente solicitando una Ruta del archivo de aprendizaje. Una vez proporcionada la ruta se abrirá el asistente.
Nota: Incluso si no hay ningún archivo.json
disponible, puedes añadir el nombre de un nuevo archivo.json
directamente en la actividad y el archivo.json
se creará automáticamente en la carpeta especificada.
La siguiente captura de pantalla muestra un tipo de documento que se ha entrenado, uno que no se ha entrenado y otro que se ha entrenado y al que se puede acceder su visualización o eliminación.
Para los tipos de documentos que aún no se hayan entrenado, se puede realizar un entrenamiento en tiempo de diseño utilizando la opción Iniciar entrenamiento. En el caso de los tipos de documentos que ya tienen algún entrenamiento, puedes eliminarlo para empezar de nuevo, utilizando esta opción , o realizar un entrenamiento adicional (acumulativo al ya existente) mediante la opción Editar .
Una vez iniciado un nuevo entrenamiento, aparece una nueva pantalla en la que se solicitan los archivos de entrenamiento y el motor OCR que debe utilizarse.
Cada motor OCR incorpora su propio conjunto de opciones de personalización. Aquí encontrarás más información sobre todas las opciones disponibles para cada motor OCR.
Los siguientes motores OCR no admiten documentos girados y no deben utilizarse para procesar este tipo de documentos:
- Microsoft OCR
- Tesseract OCR
Solo se pueden exportar los datos de entrenamiento de los tipos de documentos que han sido entrenados. No se pueden seleccionar tipos de documentos que no hayan sido entrenados.
Puedes exportar los datos de entrenamiento siguiendo estos pasos:
- Selecciona los tipos de documentos que han sido entrenados.
- Haz clic en el botón Exportar.
- Si hay cambios sin guardar, aparecerá el siguiente mensaje.
- Haz clic en Sí.
- Guarda el archivo de datos de entrenamiento con el nombre deseado.
- Aparecerá un mensaje indicando cuántos conjuntos de datos de entrenamiento de tipos de documento se han exportado. Por ejemplo:
- Haz clic en Aceptar para volver a la pantalla principal del asistente.
Puedes importar los datos de entrenamiento siguiendo estos pasos:
- Haz clic en el botón Importar.
- Selecciona el archivo de datos de entrenamiento y haz clic en Abrir.
- Selecciona los tipos de documentos deseados.
- Haz clic en el botón Importar.
- Los datos de entrenamiento se importan.
En la tabla siguiente se explican los mensajes que aparecen al importar los datos de entrenamiento:
Tipo de importación |
Mensaje mostrado |
---|---|
Nuevo tipo de documento y vectores de palabras |
Este tipo de documento se añadirá a la taxonomía |
Nuevo vector de palabras (ninguno previamente definido) |
N/D |
Tipo de documento idéntico y vector de palabras |
El vector de palabras para este tipo de documento se sobrescribirá |
Coloca la actividad entrenador del clasificador inteligente de palabras claves en Entrenar el alcance de los clasificadores, y configúrala en consecuencia.
No podemos imponer la coherencia de los archivos de entrenamiento en los entrenamientos paralelos en la actividad. El proceso de Document Understanding ofrece dos posibles soluciones a esta incidencia. Ambos consisten en el control del tráfico:
- bloquea los archivos (implementado de forma predeterminada en el proceso): renombra el archivo usando la extensión
.lock
, modifica y guarda el archivo, después vuelve a renombrarlo, eliminando la extensión.lock
- configuración manual de una cola especial: crea una cola vacía en Orchestrator e integra tus dos actividades del proyecto
Para obtener más información sobre cómo entrenar un clasificador, consulta Entrenamiento de clasificación de documentos.