- Información general
- Primeros pasos
- Crear modelos
- Consumir modelos
- Detalles del modelo
- Puntos finales públicos
- 1040: tipo de documento
- 1040 Anexo C: tipo de documento
- 1040 Anexo D: tipo de documento
- 1040 Anexo E: tipo de documento
- 1040x: tipo de documento
- 3949a: tipo de documento
- 4506T: tipo de documento
- 709: tipo de documento
- 941x: tipo de documento
- 9465: tipo de documento
- ACORD125: tipo de documento
- ACORD126: tipo de documento
- ACORD131: tipo de documento
- ACORD140: tipo de documento
- ACORD25: tipo de documento
- Estados de cuenta bancarios: tipo de documento
- Facturas de carga: tipo de documento
- Certificado de incorporación: tipo de documento
- Certificado de origen: tipo de documento
- Comprobaciones: tipo de documento
- Certificado de producto secundario: tipo de documento
- CMS 1500: tipo de documento
- Declaración de conformidad de la UE: tipo de documento
- Estados financieros: tipo de documento
- FM1003: tipo de documento
- I9: tipo de documento
- Tarjetas de identificación: tipo de documento
- Facturas: tipo de documento
- Facturas2: tipo de documento
- Facturas Australia: tipo de documento
- Facturas China: tipo de documento
- Facturas Hebreo: tipo de documento
- Facturas India: tipo de documento
- Facturas Japón: tipo de documento
- Remisión de facturas: tipo de documento
- Listas de embalaje: tipo de documento
- Nóminas: tipo de documento
- Pasaportes: tipo de documento
- Órdenes de compra: tipo de documento
- Recibos: tipo de documento
- Recibos2: tipo de documento
- Recibos Japón: tipo de documento
- Notificaciones de remesas: tipo de documento
- UB04: tipo de documento
- Divulgaciones de cierre de hipotecas de EE. UU.: tipo de documento
- Facturas de servicios públicos: tipo de documento
- Títulos de vehículos: tipo de documento
- W2: tipo de documento
- W9: tipo de documento
- Idiomas admitidos
- Paneles de insights
- Datos y seguridad
- Licencia
- Tutorial
- Solución de problemas

Guía del usuario de proyectos modernos de Document Understanding
- Carga los documentos y los clasifica automáticamente.
- Carga los documentos directamente en tipos de documentos.
- Gestionar archivos del proyecto (añadir, eliminar archivos y añadir, cambiar etiquetas).
- Anota documentos.
- Añade o elimina campos.
- Ten una experiencia guiada en el entrenamiento de modelos de clasificación y extracción utilizando las recomendaciones.
Después de crear tu proyecto y cargar tus documentos en un tipo de documento específico, se preanotan automáticamente. Esto se hace utilizando una combinación de modelos generativos y especializados, en función del esquema del tipo de documento. El esquema define claramente los campos que quieres extraer de un tipo de documento en particular. Para encontrar el esquema del tipo de documento, ve a la página Anotación y consulta la sección Campos.
Para obtener información más detallada sobre cómo anotar tus documentos, consulta la página de instrucciones sobre cómo anotar documentos.
Puedes utilizar documentos que se han validado en la estación de validación para mejorar aún más el rendimiento de tus modelos.
Si hay algún cambio después del paso de validación, se muestra el botón Excepciones para revisión para el tipo de documento afectado.
Para obtener más información sobre cómo volver a entrenar tus modelos, consulta la página de instrucciones de Volver a entrenar extractores.
Una vez cargados los documentos, puedes añadirles etiquetas.
Puedes añadir una etiqueta con un máximo de 100 caracteres para cada documento.
Para añadir una etiqueta a tus documentos, selecciona los documentos que deseas añadir y selecciona el botón Etiquetas del menú situado encima de la lista de tipos de documentos.
Puedes buscar en tus documentos más fácilmente si filtras utilizando etiquetas. También puedes comprobar los resultados por etiqueta en el archivo de configuración avanzada cuando se entrena un modelo.
Puede editar la configuración de varios campos desde el Gestor de tipos de documento.
Para llegar a allí, seleccione el icono de tres puntos ⋮ junto al tipo de documento que desea editar y seleccione Administrador de tipos de documentos en el menú.
Campos extraídos
Editar o añadir nuevos campos
- Nombre del campo: el nombre único del campo.
- Tipo de contenido: el tipo de contenido del campo:
- String: se utiliza para nombres o direcciones de empresas, así como para condiciones de pago o para cualquier otro campo en el que desee crear manualmente la lógica de análisis o formato en el flujo de trabajo de RPA.
- Número: se utiliza para importes o cantidades, con análisis inteligente de los separadores de decimales/miles.
- Fecha: analiza, da formato y unifica la salida utilizando el formato AAAA-MM-DD.
- Teléfono: se utiliza para el número de teléfono. El formato elimina las letras y los paréntesis, y reemplaza los espacios por guiones.
- Número de ID: se utiliza para códigos alfanuméricos, números de ID. Es similar al tipo de contenido de cadena, pero elimina cualquier carácter que esté antes del carácter
:
. Si el número de ID que necesita extraer puede contener caracteres:
, utilice el tipo de contenidostring
en su lugar para evitar la pérdida de datos.
- Atajo: la tecla de atajo para el campo. Se permite una tecla o una combinación de dos teclas.
- Configuración avanzada: las opciones disponibles difieren en función del tipo de contenido del campo seleccionado. Seleccione el botón Configuración avanzada para el campo deseado que desea editar:
Figura 3. Configuración avanzada del tipo de documento
- ID de campo: el ID único para el campo.
- Procesamiento posterior:
- primer_span: si el modelo predice más de una instancia de un campo en un documento, devolverá la primera.
- valor_largo: si el modelo predice más de una instancia de un campo en un documento, devolverá el valor que consiste en el mayor número de caracteres.
- confianza_alta: si el modelo predice más de una instancia de un campo en un documento, devolverá el valor con la confianza más alta.
- coincidencia_exacta: la predicción solo se considerará correcta (puntuación de 1) si coincide exactamente con el valor verdadero. Si difiere incluso en un solo carácter, se considerará que es incorrecto (puntuación de 0). Esta es la configuración predeterminada para todos los campos, excepto para los campos Cadena.
- levenshtein: la predicción se considerará parcialmente correcta según la distancia de Levenshtein entre la predicción y el valor verdadero. Por ejemplo, si se predice correctamente un valor de 10 letras excepto los últimos 2 caracteres, la puntuación de esa predicción es de 0,8.
- Formato de fecha: este campo solo está disponible para campos con tipo de contenido Fecha e indica cómo se analizan y devuelven fechas ambiguas:
- Automático
- Estilo estadounidense: AAAA-DD-MM
- Estilo no estadounidense: AAAA-MM-DD
- Multilínea: los campos que abarcan varias líneas de texto (direcciones o descripciones) deben verificarse, de lo contrario, solo se devuelve la primera línea.
- Valor múltiple: el campo devuelve una lista con todos los valores detectados en el documento.
También puedes reordenar los campos desde esta vista.
Los cambios en la configuración del tipo de documento no se reflejan en la nueva versión del proyecto si publicas una nueva versión del proyecto antes de volver a activar un entrenamiento.
Solución alternativa: para evitar esto, vuelve a entrenar el tipo de documento después de realizar modificaciones en los campos de tipo de documento. Puedes poner su punto etiquetando o confirmando documentos adicionales para ese tipo antes de publicar una nueva versión.
Buscar nombres de campo
Puede buscar entre los nombres de campo disponibles. Para ello, utilice la barra de búsqueda de la esquina superior izquierda de la interfaz del gestor de tipos de documento. Para una búsqueda más eficiente, utilice la función Filtrar para filtrar por tipo de contenido.
Eliminar campos
Selecciona el botón Eliminar junto al campo que quieres eliminar.
Campos de clasificación
Los campos de clasificación son puntos de datos que se refieren a un documento en su conjunto. Por ejemplo, el tipo de gasto de un recibo (comida, hotel, aerolínea o transporte) o la moneda de una factura (USD, EUR, JPY) son campos de clasificación.
- Cuando se utiliza la actividad Extraer datos del documento, los campos de clasificación se admiten para los extractores de proyecto modernos y los modelos listos para usar, pero no para los extractores de proyecto clásicos.
- Los campos de clasificación se extraen para los tipos de documentos personalizados solo después de un entrenamiento correcto.
Editar o añadir campos de clasificación
Para añadir un nuevo campo de clasificación, selecciona Añadir campo y escribe un nombre para el nuevo campo.
También puedes reordenar los campos desde esta vista.
Para comprobar el ID del campo de clasificación, selecciona Configuración avanzada junto al campo de clasificación requerido.
Editar o añadir clases
Para añadir una nueva clase para un campo de clasificación, selecciona Añadir clase y escribe un nombre de clase y una descripción opcional.
Puedes editar el nombre y la descripción de cada clase.
También puedes reordenar las clases desde esta vista.
Para eliminar una clase, selecciona Eliminar junto a la clase que quieres eliminar.
Configuración
Puedes cambiar la configuración del tipo de documento desde la pestaña Configuración.
Puedes cambiar la siguiente configuración:
- Modelo base: las estimaciones del tamaño del conjunto de datos utilizadas en las acciones recomendadas dependen del modelo base utilizado para el entrenamiento. Usar el modelo base más similar a su tipo de documento reducirá la cantidad de trabajo de anotación requerido.
- Número de idiomas: la estimación del tamaño del conjunto de datos utilizada en las acciones recomendadas depende de la cantidad de idiomas en el conjunto de datos. Más idiomas generalmente requieren anotar más datos.
- Tipo de documento: elige el tipo de documento deseado de la lista desplegable.
- Fecha de carga: elige un intervalo de fechas en el que se cargó el documento.
- Estado: elige el estado del documento.
- Etiqueta: elige las etiquetas que deseas filtrar.
Puedes comprobar la puntuación general de tu proyecto en la esquina superior derecha. Esta puntuación tiene en cuenta las puntuaciones del clasificador y del extractor para todos los tipos de documentos. Selecciona Puntuación del proyecto para mostrar la sección Medida . Puedes consultar medidas de rendimiento más detalladas en esa sección.
Puedes comprobar la puntuación para cada tipo de documento de la sección Tipo de documento por separado. La puntuación influye en el rendimiento general del modelo, así como en el tamaño y la calidad del conjunto de datos.
- Deficiente (0-49)
- Promedio (50-69)
- Bueno (70-89)
- Excelente (90-100)
Selecciona Puntuaciones del modelo detalladas para ir a la sección Medir para obtener información detallada.