- Información general
- Crear modelos
- Consumir modelos
- Paquetes ML
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 9465: paquete ML
- ACORD125: paquete ML
- ACORD126 - Paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasAustralia: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Nóminas - - Paquete ML
- Pasaportes: paquete ML
- Órdenes de compra: paquete ML
- Recibos: paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Puntos finales públicos
- Idiomas admitidos
- Datos y seguridad
- Lógica de licencias y tarificación
- Tutorial
Guía del usuario de Document Understanding
Crear
- Carga los documentos y los clasifica automáticamente.
- Carga los documentos directamente en tipos de documentos.
- Manage files from the project (add, remove files and add, change tags).
- Anota documentos.
- Añade o elimina campos.
- Ten una experiencia guiada en el entrenamiento de modelos de clasificación y extracción utilizando las recomendaciones.
Después de crear tu proyecto y cargar tus documentos en un tipo de documento específico, se preanotan automáticamente. Esto se hace utilizando una combinación de modelos generativos y especializados, en función del esquema del tipo de documento. El esquema define claramente los campos que quieres extraer de un tipo de documento en particular. Para encontrar el esquema del tipo de documento, ve a la página Anotación y consulta la sección Campos.
Esta característica forma parte actualmente de un proceso de auditoría y no debe considerarse parte de la autorización de FedRAMP hasta que finalice la revisión. Consulta aquí la lista completa de características actualmente en revisión.
For more in-depth information on how to annotate your documents, check the Annotate documents how-to page.
Puede editar la configuración de varios campos desde el Gestor de tipos de documento.
Para llegar a allí, seleccione el icono de tres puntos ⋮ junto al tipo de documento que desea editar y seleccione Administrador de tipos de documentos en el menú.
- Nombre del campo: el nombre único del campo.
- Tipo de contenido: el tipo de contenido del campo:
- String: se utiliza para nombres o direcciones de empresas, así como para condiciones de pago o para cualquier otro campo en el que desee crear manualmente la lógica de análisis o formato en el flujo de trabajo de RPA.
- Número: se utiliza para importes o cantidades, con análisis inteligente de los separadores de decimales/miles.
- Fecha: analiza, da formato y unifica la salida utilizando el formato AAAA-MM-DD.
- Teléfono: se utiliza para el número de teléfono. El formato elimina las letras y los paréntesis, y reemplaza los espacios por guiones.
- Número de ID: se utiliza para códigos alfanuméricos, números de ID. Es similar al tipo de contenido de cadena, pero elimina cualquier carácter que esté antes del carácter
:
. Si el número de ID que necesita extraer puede contener caracteres:
, utilice el tipo de contenidostring
en su lugar para evitar la pérdida de datos.
- Atajo: la tecla de atajo para el campo. Se permite una tecla o una combinación de dos teclas.
- Configuración avanzada: las opciones disponibles difieren en función del tipo de contenido del campo seleccionado. Seleccione el botón Configuración avanzada para el campo deseado que desea editar:
Figura 2. Configuración avanzada del tipo de documento
- ID de campo: el ID único para el campo.
- Procesamiento posterior:
- primer_span: si el modelo predice más de una instancia de un campo en un documento, devolverá la primera.
- valor_largo: si el modelo predice más de una instancia de un campo en un documento, devolverá el valor que consiste en el mayor número de caracteres.
- confianza_alta: si el modelo predice más de una instancia de un campo en un documento, devolverá el valor con la confianza más alta.
- coincidencia_exacta: la predicción solo se considerará correcta (puntuación de 1) si coincide exactamente con el valor verdadero. Si difiere incluso en un solo carácter, se considerará que es incorrecto (puntuación de 0). Esta es la configuración predeterminada para todos los campos, excepto para los campos Cadena.
- levenshtein: la predicción se considerará parcialmente correcta según la distancia de Levenshtein entre la predicción y el valor verdadero. Por ejemplo, si se predice correctamente un valor de 10 letras excepto los últimos 2 caracteres, la puntuación de esa predicción es de 0,8.
- Formato de fecha: este campo solo está disponible para campos con tipo de contenido Fecha e indica cómo se analizan y devuelven fechas ambiguas:
- Automático
- Estilo estadounidense: AAAA-DD-MM
- Estilo no estadounidense: AAAA-MM-DD
- Multilínea: los campos que abarcan varias líneas de texto (direcciones o descripciones) deben verificarse, de lo contrario, solo se devuelve la primera línea.
- Valor múltiple: el campo devuelve una lista con todos los valores detectados en el documento.
Los cambios en la configuración del tipo de documento no se reflejan en la nueva versión del proyecto si publicas una nueva versión del proyecto antes de volver a activar un entrenamiento.
Solución alternativa: para evitar esto, vuelve a entrenar el tipo de documento después de realizar modificaciones en los campos de tipo de documento. Puedes poner su punto etiquetando o confirmando documentos adicionales para ese tipo antes de publicar una nueva versión.
Puede cambiar la configuración del tipo de documento desde la vista Configuración del modelo. Para ello, seleccione Configuración del modelo.
Puedes cambiar la siguiente configuración:
- Modelo base: las estimaciones del tamaño del conjunto de datos utilizadas en las acciones recomendadas dependen del modelo base utilizado para el entrenamiento. Usar el modelo base más similar a su tipo de documento reducirá la cantidad de trabajo de anotación requerido.
- Número de idiomas: la estimación del tamaño del conjunto de datos utilizada en las acciones recomendadas depende de la cantidad de idiomas en el conjunto de datos. Más idiomas generalmente requieren anotar más datos.
Puede buscar entre los nombres de campo disponibles. Para ello, utilice la barra de búsqueda de la esquina superior izquierda de la interfaz del gestor de tipos de documento. Para una búsqueda más eficiente, utilice la función Filtrar para filtrar por tipo de contenido.
Seleccione Eliminar junto al campo que desea eliminar.
- Tipo de documento: elige el tipo de documento deseado de la lista desplegable.
- Fecha de carga: elige un intervalo de fechas en el que se cargó el documento.
- Estado: elige el estado del documento
Puedes comprobar la puntuación general de tu proyecto desde la esquina superior derecha. Esta puntuación influye en las puntuaciones del clasificador y del extractor para todos los tipos de documentos. Haz clic en Puntuación del proyecto para mostrar la sección Medida. Puedes comprobar más mediciones del rendimiento en profundidad en esa sección.
Puedes comprobar la puntuación para cada tipo de documento de la sección Tipo de documento por separado. La puntuación influye en el rendimiento general del modelo, así como en el tamaño y la calidad del conjunto de datos.
- Deficiente (0-49)
- Promedio (50-69)
- Bueno (70-89)
- Excelente (90-100)
Selecciona Puntuaciones del modelo detalladas para ir a la sección Medir para obtener información detallada.