document-understanding

2021.10

false

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Sin asistencia

Guía del usuario de Document Understanding

ENTREGA:

Última actualización 4 de feb. de 2025

Clasificador inteligente de palabra clave

Qué es el clasificador inteligente de palabras claves

El clasificador inteligente de palabras claves es un clasificador que usa el vector de palabras que aprende de los archivos de ciertos tipos de documentos para realizar la clasificación de los mismos.

El algoritmo se crea en torno al concepto de contenido repetido para un mismo tipo de documento y parte de la premisa de que los tipos de documentos tienen una serie de palabras que suelen aparecer en esos tipos de documentos, lo que permite un cálculo de similitud vectorial.

Al clasificar un archivo en un tipo de documento, el clasificador inteligente de palabras claves:

encuentra el vector de palabras más parecido a un archivo,
informa sobre el tipo de documento con mayor puntuación, con las palabras principales subyacentes que coinciden.

El clasificador inteligente de palabras claves también tiene la capacidad de dividir los archivos, lo que significa que puede clasificar más de una clase para un archivo dado, para rangos de páginas separados.

Cuándo utilizarlo

Deberías plantearte el uso de este clasificador si:

tus archivos contienen uno o más tipos de documentos dentro de un mismo archivo
tus tipos de documentos son relativamente fáciles de diferenciar en cuanto al contenido.

Requisitos especiales

Para utilizar este clasificador, debes utilizar tu clave API de Automation Cloud Document Understanding o alojar tu propia instancia del clasificador inteligente de palabras claves en AI Center local.

Cómo configurar en tiempo de diseño

El Clasificador inteligente de palabras clave se puede configurar en tiempo de diseño, simplemente accediendo al asistente Administrar aprendizaje de la actividad. El mismo asistente puede utilizarse para revisar los datos recopilados durante la fase de entrenamiento de la clasificación de documentos, abriendo el mismo asistente con una ruta del archivo de aprendizaje actualizada.

Este asistente te permite configurar y administrar los datos de entrenamiento utilizados por esta actividad para identificar el tipo de documento y para clasificar los documentos. Fue creado para adaptarse a la necesidad de editar una ruta de archivo. Si en su lugar utilizamos una opción de Datos de aprendizaje con una variable, entonces se te preguntará si quieres editar una ruta de archivo específica o abortar esta operación.

Nota: El asistente Administrar aprendizaje solo funciona cuando la actividad se ha configurado con una cadena Ruta del archivo de aprendizaje. No funciona con un conjunto Ruta del archivo de aprendizaje como entrada variable o con una entrada de cadena DatosDeAprendizaje.

Añade una actividad Clasificador inteligente de palabras clave/Entrenador del clasificador inteligente de palabras clave a tu flujo de trabajo.
Configura tu actividad Clasificador inteligente de palabras clave añadiendo la ruta de un archivo .json.
- Si no se proporciona una ruta y se hace clic en la opción Administrar aprendizaje, entonces se mostrará una ventana emergente solicitando una entrada de Ruta del archivo de aprendizaje. Una vez proporcionada la ruta se abrirá el asistente.
- Se puede añadir una variable en lugar de un archivo .json, pero, dado que el asistente no puede aplicar el patrón de aprendizaje a una variable DatosDeAprendizaje, solicita una ruta de archivo específica que se puede editar.
Haz clic en la opción Administrar aprendizaje.
- Se abrirá la ventana del Asistente.
Si no se proporciona ninguna ruta y se hace clic en la opción Administrar aprendizaje, entonces se mostrará una ventana emergente solicitando una Ruta del archivo de aprendizaje. Una vez proporcionada la ruta se abrirá el asistente.

Nota: Incluso si no hay ningún archivo .json disponible, puedes añadir el nombre de un nuevo archivo .json directamente en la actividad y el archivo .json se creará automáticamente en la carpeta especificada.

La siguiente captura de pantalla muestra un tipo de documento que se ha entrenado, uno que no se ha entrenado y otro que se ha entrenado y al que se puede acceder su visualización o eliminación.

Para los tipos de documentos que aún no se hayan entrenado, se puede realizar un entrenamiento en tiempo de diseño utilizando la opción Iniciar entrenamiento. En el caso de los tipos de documentos que ya tienen algún entrenamiento, puedes eliminarlo para empezar de nuevo, utilizando esta opción , o realizar un entrenamiento adicional (acumulativo al ya existente) mediante la opción Editar .

Nota: Los archivos de entrenamiento que se utilicen deben contener una única instancia de tipo de documento por archivo. No ejecutes ningún entrenamiento de tiempo de diseño en archivos que contengan dos o más tipos de documentos, pues tus datos de entrenamiento serán erróneos.

Una vez iniciado un nuevo entrenamiento, aparece una nueva pantalla en la que se solicitan los archivos de entrenamiento y el motor OCR que debe utilizarse.

Cada motor OCR incorpora su propio conjunto de opciones de personalización. Aquí encontrarás más información sobre todas las opciones disponibles para cada motor OCR.

Nota:

Los siguientes motores OCR no admiten documentos girados y no deben utilizarse para procesar este tipo de documentos:

Microsoft OCR
Tesseract OCR

Solo se pueden exportar los datos de entrenamiento de los tipos de documentos que han sido entrenados. No se pueden seleccionar tipos de documentos que no hayan sido entrenados.

Exportar datos de entrenamiento

Puedes exportar los datos de entrenamiento siguiendo estos pasos:

Selecciona los tipos de documentos que han sido entrenados.
Haz clic en el botón Exportar.
Si hay cambios sin guardar, aparecerá el siguiente mensaje.
Haz clic en Sí.
Guarda el archivo de datos de entrenamiento con el nombre deseado.
Aparecerá un mensaje indicando cuántos conjuntos de datos de entrenamiento de tipos de documento se han exportado. Por ejemplo:
Haz clic en Aceptar para volver a la pantalla principal del asistente.

Importar los datos de entrenamiento

Puedes importar los datos de entrenamiento siguiendo estos pasos:

Haz clic en el botón Importar.
Selecciona el archivo de datos de entrenamiento y haz clic en Abrir.
Selecciona los tipos de documentos deseados.
Haz clic en el botón Importar.
Los datos de entrenamiento se importan.

En la tabla siguiente se explican los mensajes que aparecen al importar los datos de entrenamiento:

Tipo de importación	Mensaje mostrado
Nuevo tipo de documento y vectores de palabras	Este tipo de documento se añadirá a la taxonomía
Nuevo vector de palabras (ninguno previamente definido)	N/D
Tipo de documento idéntico y vector de palabras	El vector de palabras para este tipo de documento se sobrescribirá

Cómo entrenarlo

Coloca la actividad entrenador del clasificador inteligente de palabras claves en Entrenar el alcance de los clasificadores, y configúrala en consecuencia.

No podemos imponer la coherencia de los archivos de entrenamiento en los entrenamientos paralelos en la actividad. El proceso de Document Understanding ofrece dos posibles soluciones a esta incidencia. Ambos consisten en el control del tráfico:

bloquea los archivos (implementado de forma predeterminada en el proceso): renombra el archivo usando la extensión .lock, modifica y guarda el archivo, después vuelve a renombrarlo, eliminando la extensión .lock
configuración manual de una cola especial: crea una cola vacía en Orchestrator e integra tus dos actividades del proyecto

Para obtener más información sobre cómo entrenar un clasificador, consulta Entrenamiento de clasificación de documentos.

En esta página