activities
latest
false
UiPath logo, featuring letters U and I in white

Actividades de Document Understanding

Última actualización 5 de dic. de 2024

Extractor inteligente de formularios

UiPath.IntelligentOCR.Activities.DataExtraction.IntelligentFormExtractor

Descripción

Importante:

La actividad Extractor inteligente de formularios está obsoleta y no es compatible. Se ha eliminado de su paquete respectivo, lo que significa que solo puedes utilizarlo en flujos de trabajo donde se añadió previamente antes de esta obsolescencia.

Aunque los flujos de trabajo que contienen la actividad Extractor inteligente de formularios siguen funcionando normalmente, no puedes añadir la actividad a ningún nuevo flujo de trabajo. Recomendamos utilizar la actividad Extractor de formularios en su lugar.

Analiza, extrae, encuentra coincidencias y comunica la información necesaria de un documento teniendo en cuenta la posición de las palabras, incluidos los campos escritos a mano y firmados. Esta actividad solo se puede usar junto con la actividad Ámbito de extracción de datos.

Nota:

Utiliza los siguientes recursos para definir y configurar tu extractor inteligente de formularios:

Compatibilidad de proyectos

Windows-Legacy | Windows

Propiedades

Panel de propiedades

Común

  • NombreParaMostrar: el nombre de la actividad para ser mostrado.

Entrada

  • Clave de API: especifica la clave de API de la cuenta.
  • Punto final: la URL del servidor UiPath®. Por defecto, el punto final es https://du.uipath.com/svc/intelligentforms. Para obtener más información, consulta Puntos finales públicos de Document Understanding.
  • MinOverlapPercentage : especifica el área de superposición mínima (en porcentaje) entre un cuadro del documento y un cuadro de la plantilla requerida para realizar una extracción. El valor porcentual se puede establecer entre 0 y 100. El valor predeterminado es 65.
  • Tiempo de espera: especifica la cantidad de tiempo (en milisegundos) que se debe esperar una respuesta del servidor antes de arrojar un error. El valor predeterminado es 100 000 milisegundos (100 segundos).

Otros

  • Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.
    Importante: Al utilizar la versión basada en la nube de este software de extracción de datos de documentos con cualquier clave API de UiPath® Community, los documentos procesados con el software se almacenan y utilizan por UiPath® junto con cualquier dato personal que puedan contener para la supervisión del servicio. Los documentos procesados utilizando cualquier punto final del servidor UiPath® con claves API Enterprise no son almacenados por UiPath®. UiPath® no procesa documentos si el software se configura y se utiliza en tus instalaciones.
    Nota:

    Después de crear una plantilla, la actividad puede mostrar una advertencia que le informa de que es posible que se haya superado el número permitido de áreas escritas a mano en una página.

    El flujo de trabajo aún se puede ejecutar y se produce un error solo si se ha superado el número de áreas escritas a mano (más de 60 / página).

Asistente del Administrador de plantillas

Te permite crear, editar, gestionar y exportar/importar plantillas para los tipos de documento definidos en la taxonomía.

Crear una plantilla
  • Añade una actividad Extractor de formularios inteligente a tu flujo de trabajo, dentro de un Ámbito de extracción de datos.
  • Configura el extractor seleccionando Gestionar plantillas.

    Se abre la ventana Gestor de plantillas.

    Figura 1. Descripción general del asistente Gestor de plantillas

  • Selecciona Crear plantilla para crear una nueva plantilla.
    Figura 2. Descripción general del asistente Crear plantilla

    Nota:

    Si el paquete UiPath.IntelligentOCR.Activities se ha actualizado a v5.1.0, el parámetro ForceApplyOCR se ha reemplazado por el ApplyOcrOnPDF. Aquí está la compatibilidad entre los parámetros antiguos y nuevos:

    • ForceApplyOCR = Verdadero se reemplaza por ApplyOcrOnPDF = ;
    • ForceApplyOCR = Falso se reemplaza por ApplyOcrOnPDF = Auto;
    • ForceApplyOCR = Vacío se reemplaza por ApplyOcrOnPDF = Auto;
    • ForceApplyOCR = <user-defined variable> se reemplaza por ApplyOcrOnPDF = Auto.
  • Selecciona el tipo de documento para tu plantilla en la lista desplegable Tipo de documento.
    Nota: todos los Tipos de documento se basan en la Taxonomía. Asegúrate de añadir o crear una Taxonomía dentro de la carpeta del proyecto.
  • Añade el nombre de la plantilla en el campo Nombre de plantilla. Elige un nombre relevante que refleje la versión o el diseño de tu documento.
  • Añade la ruta del documento en el campo Plantilla de documento.
  • Ve a la ruta del archivo utilizando el botón Examinar.
  • Selecciona un OCR de la lista desplegable Motor OCR, y configúralo en función de sus necesidades.
  • Selecciona Configurar para desencadenar la edición de plantillas.

    La opción Aplicar OCR en PDF establece si el proceso de OCR debe aplicarse o no a los documentos PDF. Hay tres opciones disponibles en la lista desplegable: Verdadero, Falsoy Automático.

    Si se establece como Verdadero, el OCR se aplica a todas las páginas PDF del documento. Si se establece como Falso, solo se extrae el texto escrito digitalmente. El valor predeterminado es Auto, que determina si el documento exige la aplicación del algoritmo OCR dependiendo del documento de entrada.

    Cada motor OCR incorpora su propio conjunto de opciones de personalización. Consulta Motores OCR para obtener más información sobre todas las opciones disponibles para cada motor OCR.

    Si ya ha creado una plantilla, puede editarla, exportarla o eliminarla.

    Las opciones Eliminar y Exportar solo están disponibles cuando se selecciona al menos una plantilla. Las opciones Editar y Eliminar para una plantilla individual están siempre disponibles.

Figura 3. Ejemplo de una plantilla configurada en el asistente Gestor de plantillas

Nota: si se marca un campo tanto en los cuadros Firma como Escrita a mano en el Gestor de plantillas de la actividad Extractor inteligente de formularios, aparece un mensaje emergente que te informa de que un campo solo puede añadirse en un cuadro, no ambos.

Configurar el procesamiento de campos booleanos

Para documentos que incluyen casillas de verificación, puedes añadir sinónimos conocidos para las opciones y No, o puedes empezar por una lista compilada por nosotros (consulta las sugerencias Añadir recomendados). Estos valores se utilizan para interpretar el contenido booleano, que consiste en asignar un valor capturado a un valor notificado o No.

Junto a Sinónimo de Sí y Sinónimo de No, selecciona Agregar recomendado para generar las sugerencias.

Figura 4. Imagen animada que muestra la selección de Agregar recomendado y generación de sugerencias.

Nota: la casilla de verificación Sensible a mayúsculas y minúsculas debe marcarse si los sinónimos que has añadido son sensibles a mayúsculas y minúsculas.

Exportar e importar plantillas

Puedes importar plantillas creadas y exportadas de otros flujos de trabajo. Utiliza estas características para compartir plantillas entre proyectos. Una vez configurado un tipo de documento con el Extractor inteligente de formularios no necesitas volver a configurar las plantillas en una nueva implementación.

Procedimiento de exportación

Estos son los pasos que debes seguir para exportar una plantilla:

  1. Crea una o varias plantillas siguiendo los pasos explicados al principio de esta página.
  2. Selecciona las plantillas que quieres exportar.
  3. Selecciona una opción Exportar:
    1. Exportar con archivos originales

      La exportación con archivos originales los adjunta a la exportación.

    2. Exportar sin archivos originales
      Figura 5. Las opciones Exportar disponibles disponibles en el asistente Gestor de plantillas

  4. Guarda el archivo de la plantilla con el nombre deseado.
  5. Una vez guardada la plantilla, aparece un mensaje. Selecciona Aceptar.
    Figura 6. El mensaje "Plantilla X exportadas correctamente"

    Nota:

    Si no puedes compartir el contenido de los documentos en los que has creado tus plantillas, utiliza la opción Exportar sin archivos originales. Podrás seguir compartiendo e importando el archivo de plantilla en otros proyectos, pero ya no podrás editarlas ni verlas.

    Si deseas editar las plantillas una vez importadas en un proyecto diferente, asegúrate de utilizar la opción Exportar con archivos originales al exportar y luego importarlas.

Procedimiento de importación

Estos son los pasos que debes seguir para importar una plantilla:

  1. Selecciona Importar.
    Figura 7. La acción de seleccionar Importar

  2. Selecciona un archivo. Aparece el asistente de importación y muestra todos los tipos de documentos y todas las plantillas disponibles en el archivo de exportación seleccionado. Selecciona las plantillas que deseas importar y elige la opción Importar correcta:
    1. Importar con archivos originales
    2. Importar sin archivos originales
      Figura 8. Las opciones Importar disponibles en el asistente Gestor de plantillas

      Nota:
      • Cuando se importan plantillas, los tipos de documento se crean automáticamente en la taxonomía del proyecto. Si un ya existe un tipo de documento con el mismo nombre, se creará otro añadiendo un número al nombre del tipo de documento.
      • Si estás importando plantillas que han sido exportadas sin los archivos originales, o si eliges importar plantillas sin los archivos originales, entonces no dispondrás de opciones de visualización o edición para esas plantillas.
Situaciones especiales al importar una plantilla

Cuando se importa una plantilla, pueden ocurrir varias situaciones especiales. La siguiente lista explica cada tipo de importación y sus particularidades:

  • Nuevo tipo de documento: si se importa un nuevo tipo de documento, se añade un nuevo campo en la configuración del asistente, informándote de que se creará una nueva plantilla.
  • Tipo de documento duplicado: si se importa un tipo de documento idéntico, aparece el siguiente mensaje de advertencia: "Esta plantilla ya existe y se sobrescribirá".
  • Plantilla extendida: si se importa una plantilla de tipo de documento que incluye campos adicionales que la ya existente, aparece el siguiente mensaje de advertencia: "Este tipo de documento se actualizará de la siguiente manera: los siguientes campos no existen y se crearán".
  • Tipo de documento ampliado: si el usuario importa un tipo de documento que incluye campos adicionales que el ya existente, aparece el siguiente mensaje de advertencia: "Este tipo de documento se actualizará de la siguiente manera: los siguientes campos no tienen configuraciones para importar".
  • Tipo de documento con nombre idéntico pero contenido diferente: si el usuario importa un tipo de documento que tiene el mismo nombre que el existente pero campos diferentes, aparece el siguiente mensaje de advertencia: "Este tipo de documento se actualizará de la siguiente manera":
    • "Los siguientes campos no existen y se crearán"
    • "Los siguientes campos no tienen configuraciones para importar"
  • Tipo de documento con tabla faltante: si el usuario importa un tipo de documento que no incluye una tabla, aparece el siguiente mensaje de advertencia: "Este tipo de documento se actualizará de la siguiente manera: los siguientes campos no tienen configuraciones para importar".
  • Tipo de documento con tabla extendida: si el usuario importa un tipo de documento que incluye una tabla con columnas adicionales, aparece el siguiente mensaje de advertencia: "Este documento se actualizará de la siguiente manera: los siguientes campos no existen y se crearán".
  • Tipo de documento con tabla reducida: si el usuario importa un tipo de documento que incluye una tabla con columnas faltantes, aparece el siguiente mensaje de advertencia: "Este documento se actualizará de la siguiente manera: los siguientes campos no tienen configuraciones para importar".
  • Plantilla de tabla con diferentes tipos de documentos: si el usuario importa una plantilla de tipo de documento que incluye una tabla con diferentes tipos de documentos, se crea una nueva plantilla.

    Si tu taxonomía incluye una tabla que tiene un campo con un tipo de documento diferente, aparece el siguiente mensaje:

    El campo con ID xyz se ha encontrado tanto en la taxonomía importada como en la taxonomía existente, pero sus tipos son incompatibles (ambos deberían ser tablas o bien ninguno de ellos).

Asistente del Editor de Plantillas

Consideraciones generales

El Editor de plantillas se crea sobre la funcionalidad presente en la estación de validación. Para acceder a ella, selecciona Editar para una plantilla.

Consulta Estación de validación para obtener más información sobre el uso básico de la estación de validación.

Además de las opciones disponibles en la parte derecha de la pantalla de la estación de validación, hay las siguientes opciones en el Editor de plantillas:
  • Anclaje: establece el modo de selección de anclaje.
  • Borrar anclajes: borra toda la selección de anclaje

Al crear una nueva plantilla, aparece un texto explicativo cuando se abre por primera vez el Editor de plantillas. En caso de que desees acceder al texto de nuevo, ve a la sección de vista de documentos en el lado derecho, selecciona Más opciones y luego Mostrar texto de explicación.

Figura 9. La acción de mostrar el texto de explicación

Configurar anclajes

Los anclajes se pueden definir una vez abierto el Editor de plantillas desde el Gestor de plantillas y se encuentran entre las opciones del Modo de selección.

Al definir o editar una plantilla de nivel de página, aunque es opcional, lo primero que hay que realizar es la selección de Información de concordancia de la página 1.Este paso es obligatorio únicamente para las plantillas de formularios fijos.

Situada en la parte izquierda de la pantalla, la selección de Información de concordancia de la página 1 requiere una entrada de texto (solamente se aceptan tokens) de la primera página de la plantilla que siempre está en la misma posición en el diseño de esa plantilla en particular y forma un gráfico único de palabras (teniendo en cuenta las distancias relativas y los ángulos entre las palabras) en todas las plantillas definidas para un tipo de documento concreto.

En otras palabras, la Información coincidente de la página 1 (y el resto de campos de información coincidente de la página) son "huellas" de una página en particular y se utilizan ampliamente para identificar la plantilla de concordancia correcta en el tiempo de ejecución.

Por esta razón, para el campo Información de coincidencia de la Página 1 , se recomienda seleccionar de 10 a 20 palabras, preferiblemente más largas, repartidas por toda el área de la página.

Los otros campos de Información coincidente de la página (uno por cada página de la plantilla) deben rellenarse solo si estás intentando extraer datos de esa página en particular, y ya no requieren de singularidad entre plantillas. Si no es necesario extraer ningún campo de una página concreta, no es obligatorio definir la información de coincidencia de esa página.

Configurar campos simples

En el caso de los campos que no sean Tablas, la configuración de la plantilla consiste en seleccionar un Área personalizada y asignarla a un campo concreto.

Para configuraciones de formularios fijos, los campos de datos solo pueden configurarse con selecciones de Área personalizada.

Para un campo, puedes definir una o más de tales Áreas personalizadas, utilizando la opción Añadir. Si se definen dos o más Áreas personalizadas para un único campo, en tiempo de ejecución, si el campo se define en la Taxonomía como Valor único, todos los valores se concatenan en un único valor notificado. Si el campo está definido como Varios valores, cada valor se notificará de manera individual.

El icono junto a cada campo indica el tipo de selección compatible: tokens o área personalizada.

Figura 10. Imagen animada que muestra los tipos de selecciones compatibles para campos de muestra

Nota:

Si se selecciona un área vacía, la selección se establece automáticamente como Área personalizada. Si se detecta texto dentro del área seleccionada, se te solicitará que elijas el tipo de selección entre Tokens o Área personalizada.

Utiliza la característica de modo de selección de la Estación de validación para bloquear tu selección entre Tokens y Áreas Personalizadas.

Configurar tablas

Como ya se ha mencionado, hay campos en los que solo puede añadirse información mediante Tokens (como los campos Información de coincidencia de páginas) o solo utilizando un Área personalizada (como campos simples). Para los campos Tabla, puedes hacer lo siguiente:

  • Define cada celda una a una, una vez que se expanda el Editor de tabla, añadiendo la selección Área personalizada a cada celda individualmente.
  • Utiliza la funcionalidad de marcado de tabla, marcando el área de la tabla, dibujando separadores de filas y columnas y luego asignando la tabla así marcada al campo. Asegúrate de que el área extraída tiene el mismo número de columnas y filas que el área de la plantilla.
Para utilizar la funcionalidad de marcado de tabla:
  1. Selecciona Más opciones para el campo de tabla
  2. Selecciona Extraer nueva tabla.
  3. Selecciona la tabla que deseas extraer.
  4. Para cada campo sobre cada columna de tabla, selecciona el nombre de la columna que deseas que represente.

    También puedes elegir Extraer encabezado.

  5. Por último, selecciona Guardar nueva tabla.
Figura 11. Imagen animada de un ejemplo utilizando la funcionalidad de marcado de tabla

Configuración de anclajes

Un método distintivo para definir los límites de un área personalizada de la que se extraerán datos es utilizar anclajes de campo. Estos permiten orientar la extracción de datos en función de las configuraciones a nivel de campo, lo que permite una mayor flexibilidad a la hora de definir las reglas de extracción de formularios.

En consecuencia, en tiempo de ejecución, el extractor inteligente de formularios sabe cómo realizar lo siguiente:

  • identificar si coincide una plantilla de nivel de página, y extraer información acorde con la mejor correspondencia de plantilla de nivel de página que reconozca;
  • identificar si coincide alguna configuración basada en anclajes, y extraer información según su aplicación en el documento que se va a procesar;
  • calcular las puntuaciones de confianza adecuadas para todas las coincidencias posibles, a fin de poder notificar el mejor resultado (coincidencia de mayor probabilidad) de todas las opciones disponibles.
Crear una nueva configuración de anclaje
  1. Asegúrese de estar en el modo de selección de anclaje .
  2. Dibuja un cuadro alrededor del área de valor.
  3. Selecciona una etiqueta (anclaje principal) para tu área de valor utilizando uno de los siguientes métodos:
    • Selecciona la primera palabra y luego utiliza Ctrl + Select para la última palabra de la selección.
    • Selecciona, arrastra y luego suelta para capturar un rango de palabras.
      Nota: Una etiqueta únicamente puede contener palabras consecutivas de la misma línea visual.
  4. Selecciona los anclajes adicionales que identificarían de forma exclusiva tu etiqueta. Se aplica el mismo principio de selección.
  5. Asigna tu formación de anclaje al campo apropiado seleccionando Extraer valor para ese campo en concreto.
    Figura 12. Ejemplo de creación de varios anclajes para un campo

    Nota: también puedes utilizar los ejemplos anteriores de esta página para aprender a crear una plantilla y definir áreas de extracción y anclajes.
Editar una configuración de anclaje existente
  1. Selecciona la configuración de anclaje.
  2. Realiza cambios en ella (borra cualquier anclaje, la etiqueta, incluso el área de valor si lo deseas, añade nuevos elementos, etc.).
  3. Selecciona Más opciones para un anclaje de campo y luego utiliza la opción Cambiar valor extraído para actualizar tu asociación de campo.
    Figura 13. Ejemplo de cambio del valor extraído para un campo

    Nota:
    • Si eliminas el área de destino, se borrarán todos los anclajes y tendrás que empezar de nuevo.
    • Si eliminas la Etiqueta (anclaje principal), el primer anclaje creado se convierte en la nueva Etiqueta.
Eliminar una configuración de anclaje existente

Para eliminar una configuración de anclaje, puedes:

  • Selecciona Más opciones para un anclaje de campo y utiliza la opción Marcar como Falta para un valor guardado.
    Figura 14. Ejemplo de uso de la opción Marcar como falta para eliminar una configuración de anclaje

  • Selecciona Más opciones para un anclaje de campo y utiliza la opción Eliminar valor, caso de una lista de anclajes definidos para un campo determinado.
    Figura 15. Ejemplo de utilización de la opción Eliminar valor para eliminar una configuración de anclaje

Mezclar y combinar configuraciones

Puedes definir tantas plantillas como quieras para el mismo tipo de documento. Puedes tener múltiples plantillas a nivel de página, múltiples anclajes para el mismo campo, incluso plantillas que contengan tanto anclajes a nivel de página como a nivel de campo.

Nota:
  • A la hora de definir anclajes a nivel de campo, asegúrate de que tu etiqueta está próxima a tu área de valor y de que cuenta con anclajes adicionales si la misma construcción de texto puede encontrarse en varios lugares dentro del mismo documento.
  • Cuanto mayor sea la longitud de tus etiquetas y anclajes, más precisión obtendrás.

El área de valor siempre se calcula en función de su posición relativa respecto a su etiqueta (anclaje principal).Así pues, elige tus anclajes principales en consecuencia. Disponer de anclajes a nivel de campo permite a los campos moverse dentro de la plantilla y seguir siendo captados, lo que ofrece mayor flexibilidad en los cambios de diseño del documento.

Integración de Document Understanding

La actividad Extractor inteligente de formularios forma parte de Document Understanding Solutions. Consulta la Guía de Document Understanding para obtener más información.

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.