Actividades: extracción de datos basada en anclajes utilizando el extractor inteligente de formularios

activities

latest

false

Actividades de Document Understanding

Importante :

Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática. La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Extracción de datos basada en anclajes utilizando el extractor inteligente de formularios

Extrae datos de formularios que contienen texto escrito a mano utilizando la extracción basada en anclajes con la actividad Extractor inteligente de formularios.

El siguiente ejemplo explica cómo extraer datos de un formulario que también puede incluir texto escrito a mano. El siguiente escenario de caso de uso explica cómo extraer datos de una orden de compra.

Presenta actividades como Digitalizar documento, Ámbito de extracción de datos o Extractor inteligente de formularios. Puedes encontrar estas actividades en el paquete UiPath.IntelligentOCR.Activities .

Crear el flujo de trabajo

Los siguientes paquetes deben instalarse antes de crear el siguiente flujo de trabajo:

UiPath.DocumentProcessing.Contracts.Activities
UiPath.IntelligentOCR.Activities
UiPath.OCR.Activities
UiPath.OCR.Contracts
UiPath.WebApi.Activities

Steps:

Abre Studio y crea un nuevo Proceso.
Añade un contenedor Secuencia en el Diseñador de flujo de trabajo, nómbralo Secuencia1 y crea las variables mostradas en la siguiente tabla:

Tabla 1. Variables que se crearán

Tipo de variable Valor predeterminado
item Cadena N/D
classificationResult ClassificationResult[] N/D
outputFileName ValorGenérico N/D
Añade otro contenedor Secuencia en el Diseñador de flujo de trabajo, después del primero, nómbralo Secuencia2 y crea las variables mostradas en la siguiente tabla:

Tabla 2. Variables que se crearán

Tipo de variable Valor predeterminado
text Cadena N/D
taxonomy DocumentTaxonomy N/D
dom Documento N/D
documentPath Cadena N/D
classificationResult2 ClassificationResult[] N/D
outputFileName2 ValorGenérico N/D
Add a Message Box activity inside the sequence.
- En el panel Propiedades , selecciona la opción Aceptar en el menú desplegable Botones . Añade el siguiente mensaje en el campo Texto : "Seleccionar un archivo PDF".
Selecciona la casilla de verificación de la opción EncimaDelTodo. Esto trae el cuadro de mensaje al primer plano.
Añade una actividad Seleccionar archivo después de la actividad Cuadro de mensaje.
- En el panel Propiedades , añade el siguiente texto en el campo Filtro : Pdf files (*.pdf)|*.pdf
- Add the documentPath variable in the SelectedFile field.
Añade una actividad Asignar después de la actividad Seleccionar archivo.
- Add the outputFileName2 variable in the To field.
- Agrega la expresión ".temp/" + Path.GetFileName(documentPath) en el campo Valor.
Añade una actividad Deserializar JSON después de la actividad Asignar.
- Add the expression File.ReadAllText("DocumentProcessing axonomy.json") in the JSON String field.
- In the Properties panel, select the UiPath.DocumentProcessing.Contracts.Taxonomy.DocumentTaxonomy option from the TypeArgument dropdown list.
- Add the taxonomy variable in the JsonObject field.
Añade una actividad Digitalizar documento después de la actividad Deserializar JSON.
- In the Properties panel, add the value 1 in the DegreeOfParallelism field.
- Add the documentPath variable in the DocumentPath field.
- Add the dom variable in the DocumentObjectModel field.
- Add the text variable in the DocumentText field.
- Añade el motor UiPath® Document OCR dentro de la actividad.
- Add your API Key inside the ApiKey field.
- Add the "https://du.uipath.com/ocr" expression in the Endpoint field.
Añade una actividad Escribir archivo de texto después de la actividad Digitalizar documento.
- Add the JsonConvert.SerializeObject(dom) expression in the Text field.
- Add the outputFileName2 + ".dom.json" expression in the FileName field.
Añade otra actividad Escribir archivo de texto después de la actividad Escribir archivo de texto.
- Add the text variable in the Text field.
- Add the outputFileName2 + ".text.txt" expression in the FileName field.
Arrastra otro contenedor Secuencia en el Diseñador de flujo de trabajo, nómbralo Secuencia3 y crea las variables mostradas en la siguiente tabla:

Tabla 3. Variables que se crearán

Tipo de variable Valor predeterminado
extractionResult ResultadoDeExtracción N/D
validatedResults ResultadoDeExtracción N/D
doubleValidatedResults ResultadoDeExtracción N/D
dataset ConjuntoDeDatos N/D
i Int32 N/D
Add a Data Extraction Scope activity inside the Sequence3.
- In the Properties panel, add the dom variable in the DocumentObjectModel field.
- Add the documentPath variable in the DocumentPath field.
- Add the text variable in the DocumentText field.
- Add the "All.Benchmarks.Invoice" expression in the DocumentTypeId field.
- Add the taxonomy variable in the Taxonomy field.
- Add the extractionResult variable in the ExtractionResults field.
Add an Intelligent Form Extractor activity inside the Data Extraction Scope activity.
- Add your API Key in the ApiKey field.
Añade una actividad Escribir archivo de texto después de la actividad Ámbito de extracción de datos.
- Add the JsonConvert.SerializeObject(extractionResult) expression in the Text field.
- Add the outputFileName2 + ".results.json" expression in the FileName field.
Añade una actividad Estación de validación presente después de la actividad Escribir archivo de texto.
- Add the extractionResult variable in the AutomaticExtractionResults field.
- Add the dom variable in the DocumentObjectModel field.
- Add the documentPath variable in the DocumentPath field.
- Add the text variable in the DocumentText field.
- Add the taxonomy variable in the Taxonomy field.
- Add the validatedResults variable in the ValidatedExtractionResults field.
Añade una actividad Escribir archivo de texto después de la actividad Estación de validación presente.
- Add the JsonConvert.SerializeObject(validatedResults) expression in the Text field.
- Add the outputFileName2 + ".savedinVS.results.json" expression in the FileName field.
Añade otra actividad Escribir archivo de texto después de la actividad Escribir archivo de texto.
- Add the JsonConvert.SerializeObject(doubleValidatedResults) expression in the Text field.
- Add the outputFileName2 + ".doubleSavedinVS.results.json" expression in the FileName field.
Ejecuta el proceso. El proceso de automatización debe abrir la Estación de validación, extraer los datos, validarlos y almacenarlos en la carpeta de Salida.

	Tipo de variable	Valor predeterminado
`item`	Cadena	N/D
`classificationResult`	ClassificationResult[]	N/D
`outputFileName`	ValorGenérico	N/D

	Tipo de variable	Valor predeterminado
`text`	Cadena	N/D
`taxonomy`	DocumentTaxonomy	N/D
`dom`	Documento	N/D
`documentPath`	Cadena	N/D
`classificationResult2`	ClassificationResult[]	N/D
`outputFileName2`	ValorGenérico	N/D

	Tipo de variable	Valor predeterminado
`extractionResult`	ResultadoDeExtracción	N/D
`validatedResults`	ResultadoDeExtracción	N/D
`doubleValidatedResults`	ResultadoDeExtracción	N/D
`dataset`	ConjuntoDeDatos	N/D
`i`	Int32	N/D

Visita el siguiente enlace para descargar el ejemplo en formato ZIP : Ejemplo.

Definiendo su taxonomía

Ha creado su flujo de trabajo, definido todas las variables y personalizado todas las actividades. Ahora es el momento de definir tu taxonomía. Consulta Cargar taxonomía para aprender a definir tu propia taxonomía.

Crea tu taxonomía para poder extraer información de una factura. Debes centrarte en crear un tipo de documento Factura, con los campos mostrados en la siguiente tabla:

Tabla 4. Campos de tipo de documento de factura

	Tipo de campo
FacturaNo	`Text`
Subtotal	`Number`
Impuestos sobre las ventas	`Number`
Total	`Number`

Figura 1. Descripción general de la taxonomía terminada con los campos mencionados anteriormente

Crear tu plantilla

Ahora es el momento de crear la plantilla para el proceso de extracción. Consulta Cargar taxonomía para aprender a crear una plantilla.

Para este ejemplo, configura la plantilla utilizando los siguientes valores:

Tipo de documento: Factura.
Nombre de la plantilla: Factura-ejemplo.
Documento de plantilla: selecciona el archivo de destino.
Motor OCR: Microsoft OCR.
Idiomas: en.
Perfil: escanear.
Escala: 1.

Figura 2. Ejemplo de imagen animada que muestra la configuración de la plantilla

Establecer anclajes en la plantilla

Los anclajes son una característica muy especial y útil que se puede utilizar cuando se necesita extraer información precisa de un documento. Al definir un área de extracción con un anclaje, puede esperar una alta precisión en la extracción de datos.

Una vez definida la taxonomía y creada la plantilla, puedes empezar a configurar la plantilla mediante el uso de anclajes, lo que significa que el área de extracción se define en un cuadro y los anclajes se utilizan para definir la posición del cuadro.

Consulta la siguiente lista para algunos punteros antes de empezar a añadir anclajes a tu plantilla:

El cuadro de anclaje debe ser lo más grande posible (alto, ancho) para cubrir cualquier tipo de número de factura, fuente larga, corta, grande, etc.
Un área de extracción puede tener tantos anclajes como sea necesario, pero solo uno definido como principal (el primero).
Utilice anclajes formados por varias palabras en paralelo.
El anclaje principal debe estar lo más cerca posible del área de extracción.
Las posiciones del área de extracción y el anclaje principal se fijan en la plantilla, incluso cuando se aplican a diferentes documentos. Lo único que puede variar es la distancia entre el anclaje principal y los secundarios.

Continuemos configurando la plantilla y veamos cómo puedes extraer datos utilizando un anclaje.

Establecer el área de extracción:
- En el área derecha de la estación de validación, selecciona Modos de selección.
- Selecciona Anclaje.
- Comienza a seleccionar el área deseada.
  
  Nota:
  El anclaje principal debe contener dos o tres palabras para una alta precisión y mejores resultados en el proceso de extracción.
  Selecciona varias palabras al etiquetar un anclaje pulsando CTRL y seleccionando las palabras deseadas.
Establece el anclaje principal:
1. Mientras aún estás en el modo de selección Anclaje, selecciona el área deseada como tu anclaje principal.
2. Selecciona Extraer valor para el campo deseado.
Establece los anclajes secundarios:
1. Asegúrate de estar aún en el modo de selección Anclaje y con las selecciones de anclaje principales activadas.
2. Selecciona las nuevas áreas para los anclajes secundarios.
3. Selecciona Opciones para el campo deseado y luego selecciona Cambiar valor extraído.

Repite el proceso hasta que hayas terminado de definir todas las áreas de extracción y añadir todos los anclajes. Una vez terminado, guarde la plantilla.

En esta página

Crear el flujo de trabajo
Definiendo su taxonomía
Crear tu plantilla
Establecer anclajes en la plantilla

¿Te ha resultado útil esta página?

AnteriorValidación manual para digitalizar documentos

Sig.Estación de validación

Crear el flujo de trabajo​

Definiendo su taxonomía​

Crear tu plantilla​

Establecer anclajes en la plantilla​

¿Te ha resultado útil esta página?

Crear el flujo de trabajo

Definiendo su taxonomía

Crear tu plantilla

Establecer anclajes en la plantilla