- Primeros pasos
- Componentes de marco
- Document Understanding en AI Center
- Procesos
- Paquetes ML
- Gestor de datos
- Servicios de OCR
- Licencia
- Referencias
Guía del usuario de Document Understanding
Clasificador inteligente de palabra clave
El clasificador inteligente de palabras claves es un clasificador que usa el vector de palabras que aprende de los archivos de ciertos tipos de documentos para realizar la clasificación de los mismos.
El algoritmo se crea en torno al concepto de contenido repetido para un mismo tipo de documento y parte de la premisa de que los tipos de documentos tienen una serie de palabras que suelen aparecer en esos tipos de documentos, lo que permite un cálculo de similitud vectorial.
Al clasificar un archivo en un tipo de documento, el clasificador inteligente de palabras claves:
- encuentra el vector de palabras más parecido a un archivo,
- informa sobre el tipo de documento con mayor puntuación, con las palabras principales subyacentes que coinciden.
El clasificador inteligente de palabras claves también tiene la capacidad de dividir los archivos, lo que significa que puede clasificar más de una clase para un archivo dado, para rangos de páginas separados.
Deberías plantearte el uso de este clasificador si:
- tus archivos contienen uno o más tipos de documentos dentro de un mismo archivo
- tus tipos de documentos son relativamente fáciles de diferenciar en cuanto al contenido.
Para utilizar este clasificador, debes utilizar tu clave API de Automation Cloud Document Understanding o alojar tu propia instancia del Clasificador inteligente de palabras clave en el AI Center local.
El Clasificador inteligente de palabras clave se puede configurar en tiempo de diseño, simplemente accediendo al asistente Administrar aprendizaje de la actividad. El mismo asistente puede utilizarse para revisar los datos recopilados durante la fase de entrenamiento de la clasificación de documentos, abriendo el mismo asistente con una ruta del archivo de aprendizaje actualizada.
Este asistente te permite configurar y administrar los datos de entrenamiento utilizados por esta actividad para identificar el tipo de documento y para clasificar los documentos. Fue creado para adaptarse a la necesidad de editar una ruta de archivo. Si en su lugar utilizamos una opción de Datos de aprendizaje con una variable, entonces se te preguntará si quieres editar una ruta de archivo específica o abortar esta operación.
La siguiente captura de pantalla muestra un tipo de documento que se ha entrenado, uno que no se ha entrenado y otro que se ha entrenado y al que se puede acceder su visualización o eliminación.
Para los tipos de documentos que aún no se hayan entrenado, se puede realizar un entrenamiento en tiempo de diseño utilizando la opción Iniciar entrenamiento. En el caso de los tipos de documentos que ya tienen algún entrenamiento, puedes eliminarlo para empezar de nuevo, utilizando esta opción , o realizar un entrenamiento adicional (acumulativo al ya existente) mediante la opción Editar .
Los archivos de entrenamiento introducidos en Entrenamiento en tiempo de diseño deben contener tipos de documento únicos
Los archivos de entrenamiento a utilizar deben contener una única instancia de tipo de documento por archivo. No ejecutes ningún entrenamiento de tiempo de diseño en archivos que contengan dos o más tipos de documentos, pues tus datos de entrenamiento serán erróneos.
Una vez iniciado un nuevo entrenamiento, aparece una nueva pantalla en la que se solicitan los archivos de entrenamiento y el motor OCR que debe utilizarse.
Cada motor OCR incorpora su propio conjunto de opciones de personalización. Aquí encontrarás más información sobre todas las opciones disponibles para cada motor OCR.
Los siguientes motores OCR no admiten documentos girados y no deben utilizarse para procesar este tipo de documentos:
- Microsoft OCR
- Tesseract OCR
Solo se pueden exportar los datos de entrenamiento de los tipos de documentos que han sido entrenados. No se pueden seleccionar tipos de documentos que no hayan sido entrenados.
Puedes exportar los datos de entrenamiento siguiendo estos pasos:
- Selecciona los tipos de documentos que han sido entrenados.
- Haz clic en el botón Exportar.
-
Si hay cambios sin guardar, aparecerá el siguiente mensaje.
- Haz clic en Sí.
- Guarda el archivo de datos de entrenamiento con el nombre deseado.
- Aparecerá un mensaje indicando cuántos conjuntos de datos de entrenamiento de tipos de documento se han exportado. Por ejemplo:
- Haz clic en Aceptar. El asistente se cierra.
Puedes importar los datos de entrenamiento siguiendo estos pasos:
- Haz clic en el botón Importar.
- Selecciona el archivo de datos de entrenamiento y haz clic en Abrir.
- Selecciona los tipos de documentos deseados.
- Haz clic en el botón Importar.
- Los datos de entrenamiento se importan.
En la tabla siguiente se explican los mensajes que aparecen al importar los datos de entrenamiento:
Tipo de importación |
Mensaje mostrado |
---|---|
Nuevo tipo de documento y vectores de palabras |
Este tipo de documento se añadirá a la taxonomía |
Nuevo vector de palabras (ninguno previamente definido) |
N/D |
Tipo de documento idéntico y vector de palabras |
El vector de palabras para este tipo de documento se sobrescribirá |
Coloca la actividad entrenador del clasificador inteligente de palabras claves en Entrenar el alcance de los clasificadores, y configúrala en consecuencia.
Para obtener más información, consulta Entrenamiento en clasificación de documentos.