Agentes: analizar archivos

agents

latest

false

Guía del usuario de Agents

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Analizar archivos

Añade y configura la herramienta Analizar archivos para permitir que tu agente utilice LLM para procesar y razonar sobre el contenido del archivo.

La herramienta Analizar archivos permite a los agentes procesar y razonar sobre el contenido del archivo utilizando LLM.

Añade la herramienta Analizar archivos

Para añadir la herramienta Analizar archivos a tu agente, realiza los siguientes pasos:

Definir entradas de archivo. En el panel Gestor de datos, añade un argumento para cada entrada de archivo en el esquema de tu agente.

Figura 1. Crear argumentos de entrada de archivo

El argumento de entrada debe referenciarse explícitamente en la solicitud del usuario utilizando la sintaxis {{exampleInput}}. Los argumentos de entrada a los que no se hace referencia se ignoran y pueden afectar a la puntuación del agente.
- Para un archivo único, establece el tipo de argumento en Archivo y haz referencia a él en la solicitud del usuario. Por ejemplo: "Analiza el siguiente informe y resume los hallazgos clave: {{reportFile}}".
- Para pasar varios archivos, establece el tipo de argumento en Array y el tipo de elemento en Archivo y, luego, haz referencia al argumento por su nombre en la solicitud del usuario. También puedes añadir argumentos de cadena opcionales para las instrucciones de runtime. Por ejemplo:
```
Analyze the following report files and summarize the key findings.

## Inputs
- Report files: {{reportFiles}}
- Additional instructions (optional): {{analysisInstructions}}
Analyze the following report files and summarize the key findings.

## Inputs
- Report files: {{reportFiles}}
- Additional instructions (optional): {{analysisInstructions}}
```
En este ejemplo, reportFiles es un argumento de un array del archivo y analysisInstructions es un argumento opcional de una string. Ambos deben definirse en el panel Gestor de datos.
Añade la herramienta Analizar archivos a tu definición de agente:
1. Selecciona Añadir herramienta en el panel Herramientas.
2. En la categoría Herramientas integradas, elige Analizar archivos.
3. Actualiza el nombre y la descripción de la herramienta para ayudar al agente a razonar mejor sobre cuándo utilizarla. El nombre y la descripción guían la fase de planificación del agente, es decir, determinan cuándo el agente decide llamar a la herramienta, no lo que la herramienta hace con los archivos en runtime.
Establece las entradas de la herramienta. La herramienta viene preconfigurada con dos entradas principales:
- attachments (array): una entrada definida por la solicitud que indica al agente los archivos que debe pasar a la herramienta. En este campo, describe cómo el agente debe utilizar las entradas del archivo a las que se hace referencia en la solicitud del usuario (por ejemplo, {{reportFiles}}). El agente asigna automáticamente esos archivos referenciados a esta entrada en runtime. Ejemplo: "Usa los archivos proporcionados en la solicitud del usuario (por ejemplo, {{reportFiles}}) como entradas para el análisis".
- analysisTask (string): una instrucción de runtime que le indica al LLM qué hacer con los archivos una vez que se invoca la herramienta, por ejemplo, "Analiza estos informes. Extrae el título del informe, un resumen ejecutivo, los hallazgos clave ordenados por importancia, las recomendaciones prácticas y la opinión general." Esto es distinto del nombre y la descripción de la herramienta, que controlan cuándo el agente llama a la herramienta. Si tu caso de uso solo implica un archivo, puedes describir los archivos adjuntos en consecuencia (por ejemplo, "Utiliza el archivo proporcionado en {{reportFile}}…").
Ejecuta el agente con archivos de entrada.
1. Abre la ventana Configuración de depuración:
  1. Navega a la pestaña Argumentos del proyecto.
  2. Carga tus archivos de entrada vinculados a tu argumento reportFiles.
2. Selecciona Guardar y ejecuta la sesión de depuración.
Después de ejecutar el agente, inspecciona el seguimiento de ejecución a través del panel inferior.

La herramienta Analizar archivos ahora se añade a tu agente y se configura para procesar entradas de archivos. El seguimiento de ejecución del panel Seguimiento de ejecución muestra cómo se gestionó cada archivo adjunto durante la ejecución.

Seguimientos de archivo adjunto

Al utilizar la herramienta Analizar archivos, todas las entradas y salidas de los archivos se capturan en el panel Seguimiento de ejecución, en la pestaña Historial. El seguimiento proporciona una visibilidad detallada de cómo se gestionaron los archivos adjuntos durante la ejecución del agente.

Para cada archivo, el seguimiento muestra:

ID: un identificador exclusivo para el archivo adjunto.
Nombre: nombre del archivo original (por ejemplo, 1.jpg).
Tipo MIME: tipo de archivo detectado (por ejemplo, image/jpeg).

Figura 2. El análisis de archivo en el seguimiento de ejecución

Selecciona la llamada de herramienta del seguimiento de ejecución y ve a la pestaña Archivos para descargar el archivo.

Figura 3. Cómo descargar un archivo de los seguimientos

Enmascaramiento de PII para el contenido del archivo

Cuando el enmascaramiento de PII en vuelo está habilitado en tu política de AI Trust Layer, se aplica automáticamente al contenido del archivo procesado a través de la herramienta Analizar archivos. La PII detectada en el contenido del archivo extraído se seudonimiza antes de que el contenido llegue al LLM y se rehidrata en la respuesta del LLM. Para más detalles de configuración, consulta Enmascaramiento de PII.

Se admiten los siguientes formatos de archivo:

PDF
DOCX
CSV
TXT
JSON
Imagen

Mejores prácticas y preguntas frecuentes

Nota:

Para obtener más Detalles sobre el uso de Archivos de Processes de Maestro, Flujos de trabajo de RPA o ejecuciones de agente independientes, consulta Trabajar con Archivos.

La herramienta Analizar Archivos permite a los agentes procesar documentos e imágenes utilizando LLM. Aunque es potente, hay algunas limitaciones y comportamientos importantes a tener en cuenta al diseñar agentes impulsados por archivos.

Límites del archivo

Cada archivo no debe superar los 30 MB. No hay un límite impuesto en el número de archivos por solicitud.

Soporte de tipos de archivo por proveedor

La compatibilidad con archivos depende del proveedor de LLM y del modelo seleccionados para el agente. Aunque varios proveedores admiten formatos como PDF, documentos de Word, hojas de cálculo, HTML, texto, Markdown e imágenes, cada proveedor puede procesar estos archivos de forma diferente antes de enviar el contenido al modelo. Los resultados pueden variar entre proveedores y modelos, especialmente para archivos que contienen gráficos, imágenes incrustadas, diseños complejos, fórmulas o tablas grandes.

La siguiente tabla muestra los formatos compatibles con los modelos más recientes expuestos por UiPath:

Proveedor/familia de modelos	Formatos de documento y texto compatibles	Formatos de imagen compatibles
Modelos de Anthropic a través de AWS Bedrock	.pdf, .csv, .Doc .docx, .xls, .xlsx, .html, .Txt .md	.gif, .jpe, .jpeg, .pdf, .png .tiff, .webp
Modelos de OpenAI GPT	.pdf, .csv, .Doc .docx, .xls, .xlsx, .html, .Txt .md	.gif, .jpe, .jpeg, .pdf, .png .tiff, .webp
Modelos de Gemini a través de Vertex AI	.csv, .txt, .md, .html	.gif, .jpe, .jpeg, .pdf, .png .tiff, .webp

Nota:

El soporte depende del modelo seleccionado y de las capacidades del proveedor. Algunos modelos pueden admitir una extensión de archivo en el nivel de API, pero procesar el archivo de forma diferente internamente, lo que puede afectar a la calidad de la respuesta.

Soporte de archivos para configuraciones de LLM personalizadas

Cuando se utiliza la capacidad Trae tu propio LLM a través de AI Trust Layer, los tipos de archivo compatibles con Analizar archivos dependen de la configuración del LLM. Para obtener más información, consulta Configurar LLM.

La compatibilidad de archivos se determina por la combinación de:

El proveedor seleccionado, como Azure OpenAI, Amazon Web Services o Google Vertex
La familia de modelos y la versión del modelo seleccionadas
El tipo de API configurado, como el PuntoFinal del proveedor utilizado para llamar al modelo
Las capacidades de procesamiento de archivos expuestas por ese PuntoFinal del proveedor

Es posible que un tipo de archivo que funciona con un modelo o proveedor no funcione con otro, incluso cuando ambos modelos están disponibles a través de AI Trust Layer. Por ejemplo, la compatibilidad con documentos, hojas de cálculo, imágenes y PDF puede variar en función de si la API del proveedor acepta esos archivos directamente, extrae texto de ellos, los convierte en imágenes o aplica un paso de preprocesamiento específico del proveedor.

UiPath valida que el PuntoFinal de LLM configurado sea accesible y compatible con la configuración del producto seleccionada. Cuando utilizas una configuración de LLM personalizada, eres responsable de asegurarte de que el modelo, el proveedor y el tipo de API configurados admitan los tipos de archivo que requiere tu caso de uso Analizar archivos.

Nota:

La compatibilidad del archivo puede cambiar cuando se cambia de un modelo gestionado por UiPath a una configuración de LLM personalizada, o cuando se cambia el proveedor, la versión del modelo o el tipo de API. Si Analizar archivos no puede procesar un archivo después de cambiar la configuración del LLM, revisa el proveedor, el modelo y el tipo de API configurados en AI Trust Layer.

Cómo funciona el procesamiento de archivos

Cuando se pasa un archivo a un LLM, el modelo no recibe el archivo original tal cual. La mayoría de los proveedores aplican un paso de preprocesamiento antes de añadir el contenido al contexto del modelo. El comportamiento del preprocesamiento depende del tipo de archivo.

Para las entradas de archivos de OpenAI:

Los archivos PDF pueden procesarse como texto extraído e imágenes de página en modelos con capacidad de visión.
Los archivos de texto y de documentos que no son PDF se procesan solo como texto extraído.
Los archivos de hoja de cálculo utilizan un flujo de aumento específico de la hoja de cálculo. OpenAI analiza hasta las primeras 1000 filas por hoja y añade metadatos de resumen y de encabezado para que el modelo pueda trabajar a partir de una representación estructurada de los datos.

Otros proveedores como AWS Bedrock y Vertex AI pueden utilizar enfoques de preprocesamiento similares, pero los detalles de implementación exactos son específicos del proveedor y pueden no estar completamente documentados.

Los archivos grandes pueden superar los límites de token.

Los agentes procesan los archivos incrustando sus contenidos en solicitudes de LLM, que están restringidas por el límite de tokens del modelo. Los PDF grandes o documentos de imagen escaneados pueden fallar en silencio o devolver errores vagos como "Se ha producido un error", especialmente cuando superan el presupuesto de tokens del modelo.

Para mitigar:

Usa modelos con mayor capacidad de tokens.
Usa las capacidades orientadas a la recuperación, como Buscar archivos o la contextualización, especialmente para archivos grandes o de varias páginas.
Preindexa documentos y sincronízalos antes o durante la ejecución del agente a través de herramientas personalizadas.

Manejar PDF grandes

Los PDF grandes pueden superar el presupuesto de tokens del LLM cuando se procesan por completo. Divide el PDF en fragmentos más pequeños o páginas individuales antes de pasárselos al agente.

Los LLM cambian el tamaño de las imágenes

Cuando se envían archivos de imagen (por ejemplo, .jpg, .png) como parte de la solicitud de LLM, la mayoría de los modelos cambian automáticamente su tamaño. Esto puede distorsionar las relaciones de aspecto o perder datos precisos de píxeles.

Evita solicitudes que se basen en coordenadas exactas, cuadros de límite o comparaciones alineadas de píxeles (por ejemplo, diferencias de imagen que requieren un posicionamiento x/y específico). Para obtener más información, consulta la guía de visión de imagen de OpenAI para el comportamiento de cambio de tamaño específico del modelo.

Consejos para mejores resultados

Los nombres de archivo deben estar limpios: los modelos antrópicos, en particular, rechazan nombres de archivo con caracteres especiales o espacios en blanco repetidos.
Mantén bajo el recuento de imágenes: algunos modelos como GPT-4o admiten un máximo de 10-50 imágenes por solicitud.
Usa el formato PDF cuando el diseño, los gráficos o los diagramas sean importantes. Imágenes y gráficos incrustados en formatos no PDF como .docx es posible que no se puedan extraer en el contexto del modelo.
Usa formatos basados en texto como .txt, .md, o .html para tareas sencillas de Document Understanding.
Para los análisis complejos de hojas de cálculo que impliquen agregaciones, uniones, fórmulas o gráficos, utiliza un paso de procesamiento determinista o un flujo de trabajo de procesamiento de datos dedicado antes de pasar el resultado al agente.

¿Te ha resultado útil esta página?

AnteriorHerramientas incorporadas

Sig.Transformación por lotes

Añade la herramienta Analizar archivos​

Seguimientos de archivo adjunto​

Enmascaramiento de PII para el contenido del archivo​

Mejores prácticas y preguntas frecuentes​

Límites del archivo​

Soporte de tipos de archivo por proveedor​

Soporte de archivos para configuraciones de LLM personalizadas​

Cómo funciona el procesamiento de archivos​

Los archivos grandes pueden superar los límites de token.​

Manejar PDF grandes​

Los LLM cambian el tamaño de las imágenes​

Consejos para mejores resultados​

¿Te ha resultado útil esta página?

Añade la herramienta Analizar archivos

Seguimientos de archivo adjunto

Enmascaramiento de PII para el contenido del archivo

Mejores prácticas y preguntas frecuentes

Límites del archivo

Soporte de tipos de archivo por proveedor

Soporte de archivos para configuraciones de LLM personalizadas

Cómo funciona el procesamiento de archivos

Los archivos grandes pueden superar los límites de token.

Manejar PDF grandes

Los LLM cambian el tamaño de las imágenes

Consejos para mejores resultados