Guía del usuario de Document Understanding

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última actualización 11 de nov. de 2024

Exportar documentos

El cuadro de diálogo Exportar archivos permite exportar fácilmente los datos para el entrenamiento de los modelos ML.

Haz clic en el botón Exportar en la barra de gestión.

El cuadro de diálogo contiene tres pestañas:

Exportar ahora

La pestaña Exportar ahora te permite:

Descargar a Excel: descarga los datos localmente en formato Excel.
Descargar: descarga los datos localmente.
Exportar a AI Center: exporta los datos a AI Center. Las carpetas exportadas se encuentran en AI Center en la carpeta de exportación (Conjuntos de datos > dataset_name > exportación).
Nota: La función Descargar a Excel no puede utilizarse si se seleccionan las opciones de exportación Esquema o Compatible con versiones anteriores.

Si no se define ningún esquema, se deshabilitan todas las opciones de exportación.

Si se define un esquema, es obligatorio introducir un nombre para su exportación, de lo contrario, los botones Descargar y Exportar están deshabilitados. Un nombre válido puede tener hasta 24 caracteres y no debe contener caracteres especiales.

Puedes exportar o descargar un esquema incluso si incluye campos multivaluados.

Puedes optar por exportar una de las siguientes opciones:

Resultados de búsqueda actuales: los documentos etiquetados filtrados por una palabra clave/lote de nombre predefinido o por una consulta de texto. Si no se aplica ningún filtro, se exportan todos los documentos etiquetados en la vista actual.
Todos los etiquetados: todos los documentos con al menos un campo etiquetado, de cualquier tipo; más concretamente, los documentos del filtro etiquetado.
Esquema: un archivo zip que contiene los campos y sus configuraciones, y que puede ser importado en otra sesión del administrador de documentos.
Todos: exporta todos los documentos, con independencia de si se han aplicado etiquetas o no.

La casilla de verificación Exportación compatible con versiones anteriores te permite aplicar el comportamiento de exportación heredado, que consiste en exportar cada página como un documento independiente. Prueba esta opción si el modelo entrenado con la exportación predeterminada no cumple las expectativas. Deja esta opción sin seleccionar para exportar los documentos en su formulario original de varias páginas.

Importante:

La versión 2021.10 del administrador de documentos admite el etiquetado de documentos de varias páginas. Se trata de un cambio importante con respecto a las versiones anteriores, en las que cada página se etiquetaba por separado. El etiquetado y la exportación de documentos de varias páginas supone que cada documento representa un único documento lógico. Por ejemplo, un documento de seis páginas puede contener una única factura de seis páginas, pero no debe contener tres facturas diferentes de dos páginas cada una. Esto es especialmente importante para los conjuntos de evaluación.

Este requisito no es pertinente para exportaciones retrocompatibles.

Validación de la exportación

Para exportar un conjunto de datos, todos los campos deben estar etiquetados en al menos 10 documentos diferentes. De lo contrario, la exportación falla y se muestran los siguientes mensajes:

En el caso de los campos de clasificación, existe un requisito adicional: cada opción debe estar etiquetada en al menos un documento. De lo contrario, la exportación falla y se muestra el siguiente mensaje:

Cuando se exportan solo los datos del conjunto de evaluación, se desactivan todas las validaciones.

Formato del conjunto de datos

Una carpeta que contiene el conjunto de datos exportados procedentes del administrador de documentos. Esto incluye:

schema.json: un archivo que contenga los campos a extraer y sus tipos.
split.csv: un archivo que contiene la división por cada documento que se usará para ENTRENAR o VALIDAR durante el proceso de entrenamiento.
imágenes: una carpeta que contiene imágenes de todas las páginas etiquetadas.
último: una carpeta que contiene archivos .json con los datos etiquetados de cada página.

Registros

La pestaña Registros muestra el último registro exportado.

En caso de que la exportación tenga éxito, el registro muestra el número de documentos procesados y la duración de la exportación.

En caso de que la exportación del esquema tenga éxito, el registro muestra la duración de la exportación.

Durante la exportación, puedes comprobar el estado de la misma. Esto resulta particularmente útil para las grandes exportaciones.

Los mensajes de error también se muestran en los registros, por ejemplo:

En caso de que el entrenamiento automático tenga éxito, también se muestran los registros de importación de la carpeta ajuste del conjunto de datos: