Document Understanding: UiPath Helix Extractor 1.0 [obsoleto]

document-understanding

latest

false

Guía del usuario de Document Understanding

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

UiPath Helix Extractor 1.0 [obsoleto]

Configura UiPath Helix Extractor 1.0, el modelo de extracción de datos basado en LLM disponible de forma general entrenado en una amplia variedad de documentos para procesar tipos de documentos comunes en Document Understanding.

ADVERTENCIA:

UiPath Helix Extractor 1.0 está obsoleto. En su lugar, puedes utilizar UiPath Helix Extractor 2.0.

Para obtener más información, consulta la nota de lanzamiento que anuncia la obsolescencia de Helix Extractor 1.0 y la sección Próximas obsolescencias .

El modelo lingüístico de gran tamaño (LLM) Helix Extractor 1.0 es el modelo de extracción de datos generalmente disponible para UiPath® Document Understanding^TM. Aunque Helix Extractor 1.0 funciona de forma similar a los modelos anteriores, se entrenó utilizando una amplia variedad de documentos. Esto le permite procesar tipos de documentos comunes con poca o ninguna formación necesaria. Lo que diferencia al LLM Helix Extractor 1.0 es su arquitectura generativa, que mejora significativamente la precisión y simplifica la extracción. Además, también puedes ajustar el modelo con tus conjuntos de datos únicos.

Para obtener más información sobre la arquitectura de Helix Extractor 1.0 y las técnicas utilizadas para el entrenamiento, consulta la página Helix Extractor 1.0 de nuestro blog de IA.

Disponibilidad

Actualmente, UiPath Helix Extractor solo está disponible para tenants basados en EE. UU. (excluyendo GxP y Government Cloud) en proyectos modernos de Document Understanding.

El UiPath Helix Extractor está disponible tanto para proyectos clásicos como modernos cuando se utilizan puntos finales públicos en las siguientes regiones:

Los puntos finales públicos para los modelos de extracción en Europa se basan en Helix Extractor, excepto para los estados financieros.
Los siguientes puntos finales públicos para modelos de extracción se basan en Helix Extractor en la región de Japón:
- Facturas China
- Facturas Japón
- Recibos de Japón

Mejoras con respecto a la generación anterior

El LLM Helix Extractor ofrece numerosas mejoras sobre los modelos anteriores. Mejora la precisión, especialmente con tablas, se adapta a varios diseños de documentos para reducir los esfuerzos de anotación y aumenta las tasas de automatización.

Las mejoras clave incluyen:

Precisión mejorada: Helix Extractor LLM ofrece una mayor tasa de precisión y una puntuación F1 superior para documentos semiestructurados como facturas, recibos y órdenes de compra. Esto garantiza una extracción de datos precisa y consistente.
Anotación sin esfuerzo: el modelo reduce el trabajo manual al requerir solo una anotación por documento, eliminando la necesidad de anotar cada instancia de campo en cada página.
Automatización mejorada: con una mayor correlación entre el nivel de confianza y la precisión, Helix Extractor LLM mejora las tasas de automatización al tiempo que reduce el número de documentos enviados a Action Center para el mismo nivel de precisión.

En nuestras pruebas internas, Helix Extractor superó a su predecesor en rendimiento. Redujo la tasa de falsos positivos en alrededor de un 15 % y la tasa de falsos negativos cayó en casi un 17 %.

Cómo utilizar Helix Extractor

El LLM Helix Extractor está disponible exclusivamente para proyectos modernos de Document Understanding. A pesar de la introducción de Helix Extractor, todas las versiones del proyecto existentes seguirán utilizando las versiones actuales del modelo. Esto garantiza una transición sin interrupciones en los flujos de trabajo de producción en curso.

Para comenzar a entrenar un tipo de documento existente en Helix Extractor, desconfirma y vuelve a confirmar confirma todos los campos en unos pocos documentos.

Elige el tipo de documento que quieres entrenar en Helix Extractor.
Selecciona un documento.
Selecciona todos los campos del documento y elige Eliminar.
Anota todos los campos del documento y selecciona Confirmar.

Nota:
Repite los pasos 3 y 4 hasta que se inicie el entrenamiento en el tipo de documento elegido.

Cómo comprobar si Helix Extractor está habilitado

Después de entrenar tus modelos en Helix Extractor, comprueba la versión del modelo para asegurarte de que Helix Extractor esté habilitado.

Ve a la página Publicar y crea una nueva versión del proyecto.
Selecciona el icono de tres puntos ⋮ junto a la versión del proyecto y elige Editar versión para comprobar la versión del modelo.

Nota:
Todos los modelos de la versión 24.7 y superiores son modelos de UiPath Helix Extractor.

Optimización de resultados

Los nombres de campo que elijas pueden afectar en gran medida al rendimiento del modelo. Para garantizar resultados óptimos, utiliza el lenguaje natural y la gramática adecuada para los nombres de campo. Solo debes utilizar acrónimos ampliamente reconocidos como Número (No), Cuenta (Acct), Dirección (Addr) y Apartamento (Apt). Actualmente, solo se admiten idiomas de Europa occidental, así que asegúrate de que los nombres de campo elegidos se alineen con estos idiomas. Evita utilizar nombres no descriptivos, como "Columna 3", a menos que el documento utilice específicamente esa terminología.

Elegir entre Helix Extractor y el tipo de modelo heredado

UiPath Helix Extractor actualmente solo admite idiomas con escritura en alfabeto latino. Si necesitas entrenar un modelo en idiomas con escritura no latina, elige el tipo de modelo heredado. Si seleccionas el modelo heredado, elige el modelo base adecuado para tu tipo de documento.

Para elegir entre el Helix Extractor o el tipo de modelo heredado, ve a la pestaña Configuración en el Administrador de tipos de documentos y selecciona el tipo de modelo necesario de la lista desplegable Tipo de modelo .

Importante:

Es necesario publicar una nueva versión del proyecto después de implementar los cambios.

Limitaciones conocidas de UiPath® Helix Extractor

Las siguientes limitaciones se aplican actualmente para UiPath Helix Extractor:

Los campos extraídos deben coincidir exactamente con el texto de los documentos. Este proceso no incluye resumir u otros tipos de análisis de texto.
Los siguientes tipos de documentos no se basan actualmente en Helix Extractor y siguen funcionando en la generación anterior:
- Estados financieros
- Facturas China
- Facturas en hebreo
- Facturas Japón

Consejo:

Los tipos de documentos que actualmente no son compatibles con el modelo Helix Extractor tienen el siguiente mensaje en la lista desplegable Añadir tipo de documento : El tipo de documento se entrenará utilizando el modelo heredado.

UiPath Helix Extractor no admite actualmente idiomas con escritura no latina.

En esta página

Disponibilidad
Mejoras con respecto a la generación anterior
Cómo utilizar Helix Extractor
Cómo comprobar si Helix Extractor está habilitado
Optimización de resultados
Elegir entre Helix Extractor y el tipo de modelo heredado
Limitaciones conocidas de UiPath® Helix Extractor

¿Te ha resultado útil esta página?

AnteriorUiPath Helix Extractor 2.0

Sig.Infraestructura

Disponibilidad​

Mejoras con respecto a la generación anterior​

Cómo utilizar Helix Extractor​

Cómo comprobar si Helix Extractor está habilitado​

Optimización de resultados​

Elegir entre Helix Extractor y el tipo de modelo heredado​

Limitaciones conocidas de UiPath® Helix Extractor​