- Notas de la versión de Document Understanding
- Paquetes ML y Notas de la versión de puntos finales públicos
Notas de la versión de Document Understanding
Octubre de 2021
Mejoras
Los campos con menos de 10 documentos etiquetados pueden eliminarse sin confirmación.
Corrección de errores
- Se ha corregido un error que afectaba a los archivos importados con el mismo nombre.
- Se ha corregido un error en Google OCR que generaba un error en documentos con páginas vacías.
- Se ha corregido un error que mostraba erróneamente el recuento de archivos en el cuadro de diálogo Importar datos para las importaciones de conjuntos de datos de la estación de validación o Data Manager.
Problemas conocidos
- La exportación por defecto (a nivel de documento) solo funciona con los Paquetes ML versión 21.10 o posterior en AI Center. La versión aparece en la columna Registro de cambios de la vista Paquetes ML en AI Center. Para versiones anteriores, usa la casilla de exportación compatible con versiones anteriores en el cuadro de diálogo Exportar archivos.
Soporte de documentos de varias páginas
Data Manager ahora admite documentos de varias páginas. Se trata de una actualización importante que afecta a todos los aspectos de un flujo de aprendizaje automático:
Importar: puedes cargar documentos de hasta 150 páginas; para saltarte este límite, a riesgo de una experiencia de etiquetado inestable, selecciona la casilla Habilitar documentos grandes del cuadro de diálogo Importar datos.
Preetiquetado: el documento se preetiqueta en su totalidad, lo que produce los mismos resultados que el flujo de trabajo RPA, pero lleva más tiempo en el caso de los documentos más grandes. Consulta también Problemas conocidos a continuación.
Etiquetado: etiquetado más cómodo gracias al desplazamiento natural por las páginas del documento.
Exportar: se realiza en el documento de forma predeterminada. Si deseas exportar los documentos a nivel de página, marca la casilla Exportación compatible con versiones anteriores del cuadro de diálogo Exportar archivos. Esto también se recomienda si la precisión del modelo producida por la exportación predeterminada está por debajo de las expectativas.
Entrenamiento: en la mayoría de los casos, los modelos entrenados con los nuevos conjuntos de datos exportados en el documento deberían tener el mismo rendimiento que la Exportación compatible con versiones anteriores en la página. Sin embargo, si el rendimiento de los modelos es inferior al esperado, te recomendamos que vuelvas a intentar el entrenamiento usando también una exportación compatible con versiones anteriores, por si pudiera producir mejores resultados.
Evaluación: esta es la principal motivación para la característica de soporte de documentos de varias páginas, ya que las puntuaciones de las evaluaciones reflejarán con mayor precisión el rendimiento en tiempo de ejecución. Ten en cuenta que esto supone que cada documento de varias páginas contiene un único documento lógico. Por ejemplo, si se importan paquetes de archivos de 20 páginas que contienen 10 facturas de 2 páginas cada una, esto no debe usarse como parte de los conjuntos de evaluación. Sin embargo, pueden usarse como parte de los conjuntos de entrenamiento, pero solo si se exporta con la opción Compatibilidad con versiones anteriores.
Mejoras
Compatibilidad con la exportación de esquemas mediante el botón de radio en el cuadro de diálogo Exportar archivos.
El tamaño máximo de importación ha aumentado a 2 GB o 2000 páginas.
El conjunto de pruebas ha pasado a llamarse conjunto de evaluación, para que sea coherente con los procesos de evaluación de AI Center.
El botón Predecir aparece de forma predeterminada en la barra de administración, pero es necesario configurar Preetiquetado para que el botón esté habilitado.
Todas las restricciones sobre el número de muestras por campo se han eliminado de las exportaciones de conjuntos de evaluación.
Se ha añadido el nombre de la sesión de Data Manager junto al nombre del archivo en la barra de administración para identificar más fácilmente la sesión en la que se está trabajando en caso de que haya varias pestañas de Data Manager abiertas al mismo tiempo.
Compatibilidad con documentos en chino.
Mejoras en la accesibilidad.
Localización para portugués (Portugal), ruso y turco.
Problemas conocidos
- El modelo Facturas China no aplica a las fechas de estilo chino el formato estándar aaaa-mm-dd. Esto se mejorará en las próximas versiones.
- El análisis de fechas de Data Manager es incoherente con el análisis realizado por los modelos ML en tiempo de ejecución. Si observas que las fechas se analizan incorrectamente en Data Manager, es probable que se analicen correctamente en la predicción del modelo en tiempo de ejecución. Este es un problema conocido y se resolverá en un próximo parche.
- Por el momento, al utilizar la opción Predecir con Puntos finales públicos solo se preetiquetan las 10 primeras páginas de un documento. Este es un problema conocido y se incluirá una mejora en un parche futuro. Sin embargo, el uso de la opción Predecir con Habilidades ML en AI Center no impone tal limitación.