- Información general
- Crear modelos
- Consumir modelos
- Paquetes ML
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 941x: paquete ML
- 9465: paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasAustralia: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Nóminas - - Paquete ML
- Pasaportes: paquete ML
- Órdenes de compra: paquete ML
- Recibos: paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Puntos finales públicos
- Idiomas admitidos
- Datos y seguridad
- Lógica de licencias y tarificación
- Tutorial
- Validar documentos preanotados
- Tablas y filas de tablas de grupos
- Casillas de verificación y firmas
- Clasificar documentos automáticamente
- Entrenar un clasificador
Casillas de verificación y firmas
Las casillas de verificación y firmas son dos elementos que desempeñan roles cruciales en varios tipos de documentos, que van desde acuerdos contractuales hasta formularios de registro. Comprender cómo anotar correctamente las casillas de verificación y firmas es importante para aprovechar al máximo tu modelo.
- Casillas de verificación mutuamente exclusivas.
- Casillas de verificación no mutuamente exclusivas, donde puedes seleccionar más de una opción.
Un aspecto importante a considerar es el número de opciones ofrecidas dentro de un campo de opciones múltiples determinado. En algunos casos podría haber una única opción, donde la casilla de verificación se marca o no. Sin embargo, en muchos casos, puede haber 10, 20 o incluso más opciones, a menudo organizadas en un formato de cuadrícula o tabla, que es común para los formularios de salud.
En términos de anotar estos diversos campos de elección múltiple, hay cuatro métodos principales que puedes utilizar.
Utilicemos un ejemplo para comprender cómo puedes anotar las opciones.
Este método tiene la ventaja de que se trata de un único campo, que requiere menos datos. Tampoco depende de la detección correcta de casillas de verificación. Por ejemplo, si se detecta por error una casilla de verificación como la letra X, el modelo aún puede aprender a reconocer que significa la selección de la opción junto a ella.
Sin embargo, una desventaja potencial es la necesidad de garantizar que ambas opciones estén representadas más o menos por igual, lo que puede no ser siempre el caso. Por ejemplo, si el 90 % de los documentos en tu conjunto de datos tienen 2018 marcado, el rendimiento del modelo podría verse afectado, lo que llevaría al fallo de este enfoque.El problema se agrava cuando hay más opciones, ya que algunas de ellas son casi siempre poco frecuentes.En estos casos, es posible que tengas que crear documentos falsos con las opciones raras marcadas para equilibrar la situación.
En el ejemplo anterior, puedes haber creado dos campos distintos: uno etiquetado 2018 donde anotas de forma constante la casilla de verificación para ese año, y otro etiquetado 2019 donde anotas continuamente la casilla de verificación para 2019, esté marcada o no. El aspecto positivo de este método es que el equilibrio es menos importante; incluso si se selecciona una opción el 90 % del tiempo, el modelo aún puede aprender a identificarlos porque las casillas de verificación tienen posiciones fijas.
El inconveniente es que tiene dos campos en lugar de uno. Aunque esto puede no plantear un problema considerable al tratar con dos opciones, gestionar 10-20 opciones y, en consecuencia, crear 10-20 campos en lugar de uno único puede complicar significativamente el proceso de anotación. Además, esto también conduce a un proceso de entrenamiento del modelo más desafiante, que requiere más datos de entrenamiento.
Otro inconveniente es la detección incorrecta ocasional de la casilla de verificación, que puede llevar a la necesidad de una lógica más compleja en el flujo de trabajo para gestionar todos los caracteres X, V o K devueltos. En algunos casos, el OCR puede incluso fusionar la casilla de verificación con la palabra junto a ella, como X2018, lo que requiere una lógica RPA aún más compleja para gestionar esta situación.
Los campos multivalor hacen que sea más fácil anotar y no se ven afectados por desequilibrios en las opciones marcadas o por una amplia variedad de selecciones. Sin embargo, estos campos aún están sujetos a la precisión de la detección de casillas de verificación y el riesgo potencial de que las casillas de verificación se fusionen con opciones adyacentes. Es muy difícil defenderse de los errores de OCR.
Este enfoque también simplifica el proceso de anotación y es menos sensible a los errores de detección de casillas de verificación. Sin embargo, puede ser más sensible a las opciones desequilibradas.
Todas estas opciones pueden ser apropiadas en algunas situaciones. Inicialmente, se prefiere la primera opción. Como la precisión de la detección de casillas de verificación en UiPath® Document OCR ha mejorado, se prefieren las opciones dos y tres.
Las firmas pueden identificarse utilizando UiPath Document OCR, permitiendo que los modelos ML las detecten directamente.
Puedes anotar una firma como cualquier otro campo en tu documento. Una vez que se identifica la firma por UiPath Document OCR, el modelo ML aprende a reconocer el campo como firma.
En el momento de inferencia, la firma se recuperará como se muestra en los documentos. A continuación, debes convertir esto en un campo booleano (Sí/No) utilizando la lógica RPA.