- Primeros pasos
- Componentes de marco
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Clasificador de CapturaFlexible
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Paquetes ML
- Procesos
- Gestor de datos
- Servicios de OCR
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Aprendizaje profundo
- Licencia
- Referencias
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guía del usuario de Document Understanding
Extractor de forma
El Extractor de formularios es un método de extracción que se adapta mejor a los casos de uso en los que hay que procesar documentos de formato no variable y extraer datos de ellos. Dicho de otro modo, si tus documentos tienen poca o ninguna variación en su diseño, el Extractor de formularios es una buena opción.
El Extractor de formularios se basa en plantillas definidas de antemano en la fase de diseño. Un complejo conjunto de reglas aplica las plantillas configuradas a los documentos entrantes que deben procesarse, identificando y comunicando la información prevista.
La actividad incluye un asistente de configuración que te ayuda a definir las plantillas de los tipos de documentos y los campos a los que deseas destinar la extracción de datos.
La actividad admite la extracción de campos simples y de campos de tabla.
Se recomienda buscar otros métodos de extracción si:
- hay que manejar muchos diseños;
- Los documentos no solo están sesgados, girados o tienen tamaños diferentes, sino que también manifiestan "deformación" (curvatura en ciertas zonas).
Nota:
En el caso de extracción de formularios fijos, para evaluar si los diseños de dos archivos son los mismos, prueba a superponerlos en una herramienta, con cierta transparencia, para ver si todo el contenido no variable se superpone (después de desrotar, desestructurar y poner las dos imágenes a la misma escala).
Si observas variabilidad (el contenido no variable aparece más a la izquierda/derecha/arriba/abajo en determinadas zonas del documento), entonces los diseños no se consideran iguales.
El Extractor de formularios permite definir varias plantillas para el mismo tipo de documento y en tiempo de ejecución:
- identifica la mejor plantilla para el documento entrante y el tipo de documento;
- aplica el algoritmo de coincidencia de plantillas, basado en los anclajes de las páginas, a cada una de las páginas de las que hay que extraer datos (no se admiten páginas ausentes o repetidas);
- aplica todos los ajustes de anclaje en los campos a cada página, con el fin de capturar los valores asociados a las posibles coincidencias;
- notifica la información identificada de las áreas de valores de destino.
También admite el ajuste del procesamiento de casillas de verificación/campos booleanos, permitiendo la configuración del valor "Sinónimos para Sí" o "Sinónimos para No", según el caso de uso.
Este extractor no tiene capacidad de aprendizaje (entrenamiento) y requiere configuración.
Para utilizar este extractor, debes utilizar tu clave API de Automation Cloud Document Understanding o alojar tu propia instancia del Extractor de formularios en AI Center local.
La funcionalidad de anclajes está ahora disponible en el Editor de plantillas, lo que te permite definir reglas basadas en anclajes para la extracción de datos, para campos simples de un tipo de documento fijo. Aquí encontrarás más información sobre el uso y la configuración de los anclajes.