Document Understanding

document-understanding

2022.4

true

Notas de la versión de Document Understanding

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

2022.4.0

Fecha de lanzamiento de Document Manager On-Premises: 23 de mayo de 2022

Mantente al día de las últimas novedades relacionadas con Document Manager consultando la siguiente lista de cambios producidos desde la última versión de LTS hasta ahora.

Novedades

Data Manager se llama ahora Document Manager.

Existe una nueva opción que te permite eliminar archivos individuales de forma permanente. La opción se encuentra en el desplegable que también contiene la opción de descarga.

Ahora tienes la opción de cambiar el nombre de los campos anteriormente creados.

Ahora es posible realizar una búsqueda dentro de un documento, lo que te permite buscar palabras en tu documento actual.

Los datos obtenidos al importar un conjunto de datos se integran ahora en los archivos JSON del campo subconjunto, lo que significa que si modificas manualmente el archivo o lo eliminas por completo del conjunto de datos, no tiene ningún impacto sobre el entrenamiento del modelo.

Los documentos eliminados ahora se excluyen de la desduplicación, lo que significa que ahora puedes importar el mismo documento dos veces. Los documentos eliminados también se excluyen de la búsqueda o el filtrado, por lo que solo se buscan documentos no eliminados, a menos que se use la palabra clave deleted.

La vista de documentos ahora ofrece nuevos consejos para comenzar.

Mejoras

Una implementación local que utilice una instalación de SQL Server con la opción de búsqueda de texto completo deshabilitada requiere, durante la instalación, el reinicio del servicio de búsqueda de texto completo para habilitarlo. Esto lo puede hacer un administrador de base de datos que tenga los permisos adecuados en el servidor, ejecutando el comando EXEC sp_fulltext_service 'restart_all_fdhosts'.

Cuando se usa la funcionalidad Predecir junto con Administrador de documentos, los datos etiquetados que no fueron editados manualmente por el usuario se sustituyen por los valores recibidos del modelo.

Se ha añadido información sobre herramientas más descriptiva en los tipos de documentos de formación, validación y evaluación.

Se ha reestructurado el cuadro de diálogo de edición de campos de columna y regulares. Las opciones de posprocesamiento, multipágina, puntuación y color se han trasladado a la pestaña Avanzado. El resto de las opciones se encuentran en la pestaña General.

Mejora de la velocidad de importación de los documentos duplicados.

Los campos de clasificación aparecen ahora en el orden en que se crean.

Corrección de errores

Se ha corregido un problema conocido que hacía que la búsqueda o la descarga de un documento que contenía caracteres que requieren codificación URL (,, &, +, #, ') en su nombre de archivo fallara con una consulta no válida.
Se ha corregido un error que provocaba el fallo de la función Predecir en documentos con texto muy denso.
Se ha eliminado el límite de importación de 2000 documentos por sesión. Ahora puedes tener más de 2000 documentos en una sesión, teniendo en cuenta el límite de 2000 páginas por importación.
Se ha corregido un error que no permitía seleccionar más de 3 casillas al pulsar ctrl o shift.
Se ha corregido un error que provocaba que una importación se colgara en el procesamiento hasta que se agotaba el tiempo después de reiniciar el pod, pero el trabajo no se reanudaba.
Se ha corregido un error que impedía que la función Predecir extrajera los datos de todo el documento. Ten en cuenta que sigue en pie el límite de 10 páginas cuando se usa la función con Puntos finales públicos.
Se ha corregido un error para Microsoft Read OCR por el que los puntos finales que coincidían con los subdominios *.cognitiveservices.azure.com producían el error OCR endpoint is not valid.
Se ha corregido un error que provocaba que la importación de conjuntos de datos del administrador de documentos mezclara las páginas de los documentos con más de 10 páginas.
Se ha solucionado un error que provocaba la descarga o la exportación de un conjunto de datos vacío o de solo un pequeño subconjunto del conjunto de datos completo al seleccionar la opción Todos los etiquetados.

Problemas conocidos

El tamaño máximo de importación se ha reducido de 2 GB o 2000 páginas a 1 GB o 2000 páginas.
Buscar o descargar un documento que contenga caracteres que requieran codificación URL (&, ,, +, #, ') en su nombre de archivo produce un fallo con invalid query.

Para obtener más detalles sobre todos los cambios en Document Manager, consulta las anteriores Notas de la versión.

3 de junio de 2022

Problemas conocidos

Algunos archivos PDF que contienen fuentes Type3 pueden provocar un uso elevado de memoria para el servicio digitalizador. Cuando esto ocurre, las operaciones de importación desde Document Manager se degradan. La solución consiste en eliminar manualmente los pods de kubernetes que utilizan mucha memoria (más del 70 % de manera constante).

En esta página

Novedades
Mejoras
Corrección de errores
Problemas conocidos
3 de junio de 2022
Problemas conocidos

¿Te ha resultado útil esta página?

Anterior2022.4.1