- Información general
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador de CapturaFlexible
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 4506T: paquete ML
- 990 - Paquete ML: vista previa
- ACORD125: paquete ML
- ACORD126 - Paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasAustralia: paquete ML
- FacturasChina - Paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Pasaportes: paquete ML
- Nóminas - - Paquete ML
- Órdenes de compra: paquete ML
- Recibos: paquete ML
- ConsejosDeRemesas: paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Requisitos de hardware
- Procesos
- Administrador de documentos
- Servicios de OCR
- Aprendizaje profundo
- Document Understanding implementado en Automation Suite
- Instalar y utilizar
- Primera experiencia de ejecución
- Implementar UiPathDocumentOCR
- Implementar un paquete ML listo para usar
- Offline bundles 2023.4.10
- Paquetes sin conexión 2023.4.9
- Paquetes sin conexión 2023.4.8
- Paquetes sin conexión 2023.4.7
- Paquetes sin conexión 2023.4.6
- Paquetes sin conexión 2023.4.5
- Paquetes sin conexión 2023.4.4
- Paquetes sin conexión 2023.4.3
- Paquetes sin conexión 2023.4.2
- Paquetes sin conexión 2023.4.1
- Paquetes sin conexión 2023.4.0
- Utiliza Document Manager
- Utilizar el marco
- Document Understanding implementado en AI Center independiente
- Licencia
- Actividades
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guía del usuario de Document Understanding
Casillas de verificación y firmas
Hay varios tipos de campos de elección múltiple que utilizan casillas de verificación:
- las casillas de verificación mutuamente exclusivas
- las casillas de verificación no exclusivas entre sí, en las que puedes seleccionar más de una opción.
Otro aspecto importante es el número de opciones disponibles para un determinado campo de selección múltiple. En algunos casos puede haber una única opción, en la que la casilla de verificación se marca o no, mientras que en otros puede haber 10, 20 o más opciones, dispuestas en una cuadrícula o tabla, como en muchos formularios de salud.
There are two major ways in which you may label these kinds of multiple choice fields.
Veamos un ejemplo para entender cómo puedes etiquetar las opciones. Los formularios pueden incluir las opciones Proyecto o Política. En este caso, solo se dispone de un campo y solamente se etiqueta la palabra seleccionada, es decir, se etiqueta la palabra Proyecto si la casilla de verificación situada junto a ella está marcada o la palabra Política si la casilla de verificación situada junto a ella está marcada. Si no se marca ninguna de las dos, entonces no se etiqueta ninguna, y no es posible marcar ambas, por lo que esos documentos se eliminarían del conjunto de entrenamiento.
Este método tiene la ventaja de que se trata de un único campo, que requiere menos datos. También tiene la ventaja de que no depende de que se detecten correctamente las casillas de verificación. Si una casilla de verificación se detecta como una letra X, el modelo aún puede aprender a reconocer que eso significa que la opción junto a ella está seleccionada.
La desventaja es que hay que asegurarse de que ambas opciones están representadas más o menos por igual, lo que no siempre es el caso. Posiblemente, en tu conjunto de entrenamiento, el 90 % de los documentos podrían tener marcado Proyecto. En este caso, el modelo no puede funcionar bien y este método falla. El problema se agrava cuando hay más opciones, ya que algunas de ellas son casi siempre poco frecuentes.En estos casos, es posible que tengas que crear documentos falsos con las opciones raras marcadas para equilibrar la situación.
En el ejemplo anterior, es posible que tengas un campo denominado Proyecto en el que siempre etiquetes la casilla de verificación Proyecto, y un campo denominado Política en el que siempre etiquetes la casilla de verificación Política, tanto si están marcadas como si no. La ventaja es que el porcentaje importa mucho menos, incluso si una de las opciones está marcada el 90 % de las veces, el modelo sigue aprendiendo a reconocerlas porque las casillas de verificación están siempre en el mismo lugar.
El inconveniente es que tiene dos campos en lugar de uno. Cuando hay dos opciones esto puede que no sea importante, pero cuando hay entre 10 y 20 opciones, tener entre 10 y 20 campos en lugar de uno complica mucho el etiquetado, y el modelo es más difícil de entrenar, requiriendo más datos de entrenamiento.
Otro inconveniente es que a veces la casilla de verificación podría no detectarse correctamente y podría ser necesario añadir una lógica más compleja en el flujo de trabajo para tratar todos los caracteres X, V o K devueltos. En algunos casos, OCR podría incluso fusionar la casilla de verificación con la palabra que aparece junto a ella, como XProject, lo que requeriría una lógica de RPA aún más compleja para resolver esta situación.
Los campos multivaluados forman parte de la versión 2022.10 de Document UnderstandingTM. Esto facilita el etiquetado, no se ve afectado por el desequilibrio de las opciones marcadas y tampoco si existe un gran número de opciones. Sin embargo, sigue dependiendo de la precisión de la detección de las casillas de verificación o del riesgo de que estas se fusionen con las opciones contiguas. Es muy difícil defenderse de los errores de OCR.
A partir de la versión 2022.4, de LTS Enterprise, las firmas se pueden detectar con UiPath Document OCR, por lo que los modelos de aprendizaje automático pueden detectar las firmas directamente.
Etiqueta una firma como cualquier otro campo en tu documento. Una vez detectado por el OCR de documentos de UiPath, el modelo de aprendizaje automático aprende a reconocer el campo como una firma.