document-understanding
2024.10
true
UiPath logo, featuring letters U and I in white

Guía del usuario de proyectos modernos de Document Understanding

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Última actualización 20 de nov. de 2024

Funciones fundamentales

Para automatizar el procesamiento de documentos, se requieren cuatro capacidades fundamentales: digitalización, clasificación, extracción y validación.

Figura 1. Funciones fundamentales

Digitalización

La digitalización convierte un documento físico en texto legible por la máquina, que luego puede procesarse digitalmente. Aunque el reconocimiento óptico de caracteres (OCR) es una parte significativa de la digitalización, el proceso de digitalización es más complejo e implica varios pasos, incluido el OCR.

Por ejemplo, al tratar con documentos PDF, el algoritmo de digitalización puede distinguir entre los PDF escaneados y los nativos o los híbridos que contienen imágenes escaneadas y texto nativo. La mayoría del texto puede extraerse directamente de un documento PDF nativo, pero en algunos casos, puede que sea necesario leer algunos logotipos utilizando el OCR. El proceso de digitalización puede gestionar todas estas situaciones para garantizar la máxima precisión en la detección de texto mientras se ejecuta de forma rápida y eficiente.

Clasificación

El objetivo de una clasificación es escanear un documento y decidir a qué tipo de documento pertenece. Conocer el tipo de un documento es importante, ya que los diferentes tipos de documentos requieren diferentes técnicas de procesamiento. Por ejemplo, un modelo de extracción de facturas debe procesar una factura para garantizar que se extraen todos los campos relevantes.

Figura 2. Clasificador de documentos docs image

Extracción

La extracción de datos es el proceso de seleccionar y recuperar solo la información relevante de un documento. La extracción de datos específicos de un documento extenso mediante la manipulación de cadenas puede ser un desafío. Sin embargo, Document UnderstandingTM proporciona varias metodologías de extracción para diferentes tipos y formatos de documentos. Por ejemplo, solo queremos extraer los campos Nombre del proveedor, Nombre de facturación, Fecha de vencimiento y Total de una factura.

Figura 3. Extracción de datos

Validación

En la clasificación y la extracción, los robots de software utilizan el concepto de confianza, que mide el nivel de certeza de que una tarea en particular se ha realizado bien. La tarea puede consistir en reconocer un tipo de documento, identificar un campo o leer los datos que contiene. En estos casos, el marco de Document Understanding te permite involucrar a un usuario humano para que revise y valide la salida del robot. En el mejor de los casos, la aportación humana se utiliza para entrenar la precisión del robot mediante el aprendizaje automático.

  • Digitalización
  • Clasificación
  • Extracción
  • Validación

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.