Document Understanding
Más reciente
False
Imagen de fondo del banner
Guía del usuario de Document Understanding para la experiencia moderna
Última actualización 9 de may. de 2024

Crear

Esta sección proporciona las siguientes experiencias:
  • Carga los documentos y los clasifica automáticamente.
  • Carga los documentos directamente en tipos de documentos.
  • Gestiona archivos desde el proyecto (añadir, eliminar archivos y añadir, cambiar etiquetas).
  • Anota documentos.
  • Añade o elimina campos.
  • Añade o elimina reglas empresariales.
  • Ten una experiencia guiada en el entrenamiento de modelos de clasificación y extracción utilizando las recomendaciones.

Cargar documentos

Después de crear tu proyecto correctamente, puedes cargar tus documentos en la sección Creación.
  1. Abra su proyecto.
  2. Arrastra y suelta el primer lote de tus documentos de ejemplo en la sección Cargar documentos de ejemplo.
    Consejo: puedes utilizar las sugerencias de las secciones Recomendaciones. Estas sugerencias te guiarán a través del proceso.
    Los archivos cargados se procesan automáticamente (cargados, digitalizados, clasificados, anotados).
  3. Carga el siguiente lote de tus documentos de ejemplo haciendo clic en Cargar.
    Consejo: puedes consultar las secciones Recomendaciones para obtener sugerencias sobre qué más es útil cargar. Por ejemplo, si hay muy pocos documentos de utility_bills, se muestra una sugerencia:

    utility_bills tiene muy pocas muestras. Añade al menos 150 documentos para que el tamaño del conjunto de datos sea óptimo.

    Hay dos tipos de recomendaciones, una para la clasificación y otra para los modelos de extracción.


  4. Revisa los documentos cargados.
    1. Amplía la sección necesaria (por ejemplo, facturas, recibos).
    2. Haz clic en un nombre de documento.
    3. Comprueba si el Tipo de documento rellenado automáticamente es correcto. Puedes cambiar el tipo de documento utilizando la lista desplegable.

Anotar documentos

Después de crear correctamente tu proyecto y cargar tus documentos, puedes anotarlos desde la sección Crear.

Puedes empezar a anotar documentos desde una sección de tipo de documento haciendo clic en Anotar.

También puedes anotar un documento específico haciendo clic en el icono de tres puntos junto al nombre del documento y seleccionando Anotar.
Consejo: los documentos cargados se procesan automáticamente (cargados, digitalizados, clasificados, incluidos los anotados). Para un modelo de rendimiento, sigue las sugerencias de la sección Recomendaciones. Estas recomendaciones te ayudan a mejorar el rendimiento general de tu modelo.
Nota: los tipos de documentos personalizados no se anotan automáticamente. Debes preetiquetar manualmente los documentos que forman parte de un tipo de documento personalizado.


Validar documentos preetiquetados

Los documentos cargados que forman parte de un tipo de documento conocido se preetiquetan automáticamente. Puedes validar esto desde la vista Anotar.

Durante la validación, pueden suceder las siguientes situaciones:
  • El preetiquetado es correcto y debe validarse.
  • Falta el preetiquetado y debe marcarse como tal.
  • El preetiquetado no es correcto y debe editarse.

Si todos los campos de un documento están etiquetados correctamente, haz clic en Confirmar para validar todos los campos al mismo tiempo.

Una vez validado un documento, se marcará con un escudo verde en la lista de documentos.



Preetiquetado correcto

Si el campo es correcto, marca la casilla de verificación junto al campo. En nuestro ejemplo, el primer campo es Nombre del proveedor y está marcado correctamente. Para validarlo, haz clic en la casilla de verificación junto al campo.


Falta el preetiquetado

Si no hay un preetiquetado relacionado con ese campo, haz clic en el icono de los tres puntos junto al nombre del campo y selecciona Marcar como faltante
Importante: También puedes marcar los campos incorrectos como faltantes. Por ejemplo, si no hay Dirección del proveedor en tu documento, pero durante el procesamiento de un campo diferente se preetiquetó como Dirección del proveedor, puedes marcarla como faltante durante la validación.


Preetiquetado incorrecto

Si el preetiquetado no es correcto, puedes corregir el campo de forma manual.

Puedes etiquetar de forma manual el campo creando un nuevo campo. Para ello, puedes seleccionar la información necesaria arrastrando y soltando un cuadro de selección directamente en el documento y seleccionando el Nombre de campo deseado de la lista desplegable.

Nota: todos los campos anotados manualmente se validan automáticamente.

Configuración del tipo de documento

Puedes cambiar la configuración del tipo de documento desde la vista Anotar.

Para ello, haz clic en el icono de tres puntos a la derecha del nombre del tipo de documento y selecciona Configuración.



Puedes cambiar la siguiente configuración:
  • Modelo base: las estimaciones del tamaño del conjunto de datos utilizadas en las acciones recomendadas dependen del modelo base utilizado para el entrenamiento. Usar el modelo base más similar a su tipo de documento reducirá la cantidad de trabajo de anotación requerido.
  • Número de diseños: las estimaciones del tamaño del conjunto de datos utilizadas en las acciones recomendadas dependen del número de diseños del conjunto de datos. Más diseños generalmente requieren anotar más datos.
  • Número de idiomas: la estimación del tamaño del conjunto de datos utilizada en las acciones recomendadas depende de la cantidad de idiomas en el conjunto de datos. Más idiomas generalmente requieren anotar más datos.

Edit field settings

You can edit the settings for multiple fields from Document type manager.

To get to there, select the three-dot icon next to the document type you want to edit and select Document type manager from the menu.

Figure 1. Select Document type manager

Editing or adding new fields

To add a new field, select Add field and fill in the needed information. You can add or edit the following options for each field:
  • Field name: the unique name for the field.
  • Content type: the content type of the field:
    • String: used for company names or addresses, as well as payment terms, or for any other field where you want to build the parsing or formatting logic manually, in the RPA workflow.
    • Number: used for amounts or quantities, with intelligent parsing of the decimal/thousands separators.
    • Date: parse, format and unify the output using the YYYY-MM-DD format.
    • Phone: use for phone number. Formatting removes letters and parentheses, and replaces spaces with dashes.
    • ID Number: used for alphanumeric codes, numbers of IDs. It's similar to the string content type, but removes any characters coming before the : character. If the Id number you need to extract can contain : characters, use string content type instead to avoid data loss.
  • Shortcut: the shortcut key for the field. One key or a combination of two keys is allowed.
  • Advanced settings: the available options differ depending on the Content type of the selected field. Select the Advanced settings button for the desired field to edit:
    Figure 2. Document type advanced settings

    • Field ID: the unique id for the field.
    • Post processing:
      • first_span: if the model predicts more than one instance of a field in a document, make it return the first one.
      • longest_value: if the model predicts more than one instance of a field in a document, make it return the value consisting of the largest number of characters.
      • highest_confidence: if the model predicts more than one instance of a field in a document, make it return the value with the highest confidence.
      Scoring: the measure used to determine the accuracy when running evaluations of model predictions is only available for fields with content type String:
      • exact_match: prediction will only be deemed to be correct (score of 1) if it exactly matches the true value. If it differs by even a single character, then it is deemed to be incorrect (score of 0). This is the default setting for all fields except for String fields.
      • levenshtein: prediction will be deemed to be partially correct according to the Levenshtein distance between the prediction and the true value. For example, if a 10 letter value is predicted correctly except for the last 2 characters, then the score of that prediction is be 0.8.
    • Date format: this field is only available for fields with content type Date and it indicates how ambiguous dates are parsed and returned:
      • Automático
      • US style: YYYY-DD-MM
      • Non-US style: YYYY-MM-DD
    • Multi-line: fields which span multiple text lines (addresses or descriptions) need to have this checked, otherwise only the first line is returned.
    • Multi-value: field returns a list with all the values detected in the document.

Configuración del modelo

You can change the document type settings from the Model settings view. To do so, select Model settings.

Figure 3. Model settings

Puedes cambiar la siguiente configuración:

  • Modelo base: las estimaciones del tamaño del conjunto de datos utilizadas en las acciones recomendadas dependen del modelo base utilizado para el entrenamiento. Usar el modelo base más similar a su tipo de documento reducirá la cantidad de trabajo de anotación requerido.
  • Número de diseños: las estimaciones del tamaño del conjunto de datos utilizadas en las acciones recomendadas dependen del número de diseños del conjunto de datos. Más diseños generalmente requieren anotar más datos.
  • Número de idiomas: la estimación del tamaño del conjunto de datos utilizada en las acciones recomendadas depende de la cantidad de idiomas en el conjunto de datos. Más idiomas generalmente requieren anotar más datos.

Buscar nombres de campo

You can search through the available field names. To do so, use the search bar from the top left corner of the Document type manager interface. For a more efficient search, use the Filter feature to filter by Content type.

Figure 4. Search field names

Eliminar campos

Select the Delete next to the field you want to delete.

Figure 5. Delete a field

You can also select several (or all) fields and delete them at once. To do so, select the check mark next to the fields you want to delete and then click Delete.
Figure 6. Delete several fields at once

Buscar documentos

You can search uploaded documents by document name. To do so, use the search bar from the left corner of the Build section. For a more efficient search, use the Filter feature to filter by:
  • Tipo de documento: elige el tipo de documento deseado de la lista desplegable.
  • Fecha de carga: elige un intervalo de fechas en el que se cargó el documento.
  • Estado: elige el estado del documento


Puntuación del proyecto y del modelo

Puedes comprobar la puntuación general de tu proyecto desde la esquina superior derecha. Esta puntuación influye en las puntuaciones del clasificador y del extractor para todos los tipos de documentos. Haz clic en Puntuación del proyecto para mostrar la sección Medida. Puedes comprobar más mediciones del rendimiento en profundidad en esa sección.

Puedes comprobar la puntuación para cada tipo de documento de la sección Tipo de documento por separado. La puntuación influye en el rendimiento general del modelo, así como en el tamaño y la calidad del conjunto de datos.

Nota: debes cargar al menos 10 documentos para obtener una puntuación del proyecto. Para una puntuación de tipo de documento, necesitas al menos 10 documentos del mismo tipo.


Puedes comprobar la puntuación de tus modelos si seleccionas la etiqueta de puntuación. La calificación del modelo es una funcionalidad destinada a ayudarte a visualizar el rendimiento de un modelo de clasificación. Se expresa como una puntuación del modelo de 0 a 100 de la siguiente manera:
  • Deficiente (0-49)
  • Promedio (50-69)
  • Bueno (70-89)
  • Excelente (90-100)

Selecciona Puntuaciones del modelo detalladas para ir a la sección Medir para obtener información detallada.



Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.