Agents – Dateien analysieren

agents

2.2510

true

Benutzerhandbuch zu Agents

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Analyze Files

Fügen Sie das Tool „Dateien analysieren“ zu einem Agents-Projekt hinzu, um Dateiinhalte mithilfe von LLMs zu verarbeiten und analysieren.

Mit dem Tool „Dateien analysieren“ können Agents Dateiinhalte mithilfe von LLMs verarbeiten und analysieren.

Das Tool „Dateien analysieren“ hinzufügen

Um Ihrem Agent das Tool „Dateien analysieren“ hinzuzufügen, führen Sie die folgenden Schritte aus:

Definieren Sie Dateieingaben. Fügen Sie im Bereich Data Manager ein Argument für jede Dateieingabe in Ihrem Agent-Schema hinzu.

Abbildung 1. Erstellen von Dateieingabeargumenten

Das Eingabeargument muss im Benutzer-Prompt mit der Syntax {{exampleInput}}explizit referenziert werden.Eingabeargumente, auf die nicht verwiesen wird, werden ignoriert und können sich auf die Punktzahl des Agenten auswirken.
- Legen Sie für eine einzelne Datei den Argumenttyp auf Datei fest und verweisen Sie im Benutzer-Prompt darauf. Zum Beispiel: „Analysiere den folgenden Bericht und fassen Sie die wichtigsten Ergebnisse zusammen: {{reportFile}}“.
- Um mehrere Dateien zu übergeben, legen Sie den Argumenttyp auf Array und den Elementtyp auf Datei fest und verweisen Sie dann im Benutzer-Prompt auf das Argument anhand des Namens. Sie können auch optionale String-Argumente für Runtime-Anweisungen hinzufügen. Zum Beispiel:
```
Analyze the following report files and summarize the key findings.

## Inputs
- Report files: {{reportFiles}}
- Additional instructions (optional): {{analysisInstructions}}
Analyze the following report files and summarize the key findings.

## Inputs
- Report files: {{reportFiles}}
- Additional instructions (optional): {{analysisInstructions}}
```
In diesem Beispiel reportFiles ist ein Array von Dateien-Argument und analysisInstructions ein optionales String-Argument vorhanden.Beide müssen im Bereich Data Manager definiert werden.
Fügen Sie Ihrer Agent-Definition das Tool „Dateien analysieren“ hinzu:
1. Wählen Sie im Bereich Tools die Option Tool hinzufügen aus.
2. Wählen Sie in der Kategorie „Integrierte Tools“ die Option „Dateien analysieren“ aus.
3. Aktualisieren Sie den Namen und die Beschreibung des Tools, damit der Agent besser entscheiden kann, wann er es verwenden soll.Der Name und die Beschreibung leiten die Planungsphase des Agents – sie bestimmen darüber, wann der Agent beschließt, das Tool aufzurufen, nicht was das Tool zur Runtime mit den Dateien macht.
Legen Sie die Eingaben des Tools fest. Das Tool wird mit zwei Haupteingaben vorkonfiguriert:
- attachments (Array): Eine per Prompt definierte Eingabe, die dem Agent mitteilt, welche Dateien an das Tool weitergegeben werden sollen. Beschreiben Sie in diesem Feld, wie der Agent die Dateieingaben verwenden soll, auf die der Benutzerprompt verweist (z. B. {{reportFiles}}). Der Agent ordnet diese Dateien, auf die er verweist, automatisch zur Runtime dieser Eingabe zu. Beispiel: „Verwende die im Benutzer-Prompt bereitgestellten Dateien (z. B. {{reportFiles}}) als Eingaben für die Analyse.“
- analysisTask (String): Eine Runtime-Anweisung, die dem LLM angibt, was mit den Dateien zu tun ist, sobald das Tool aufgerufen wird – z. B. „Analysiere diese Berichte. Extrahiere den Berichtstitel, eine Zusammenfassung, die wichtigsten Ergebnisse geordnet nach Relevanz, umsetzbare Empfehlungen und die Gesamtstimmung.“ Dies unterscheidet sich vom Namen und der Beschreibung des Tools, die festlegen, wann der Agent das Tool aufruft. Wenn Ihr Anwendungsfall nur eine Datei umfasst, können Sie Anhänge entsprechend beschreiben (z. B. „Verwende die in {{reportFile}} bereitgestellte Datei“).
Führen Sie den Agent mit Eingabedateien aus.
1. Öffnen Sie das Fenster Debug-Konfiguration :
  1. Navigieren Sie zur Registerkarte Projektargumente .
  2. Laden Sie Ihre Eingabedateien hoch, die an Ihr Argument gebunden sindreportFiles.
2. Wählen Sie Speichern aus und führen Sie die Debug-Sitzung aus.
Überprüfen Sie nach der Ausführung des Agents die Ausführungsablaufverfolgung über den unteren Bereich.

Das Tool Dateien analysieren wird jetzt zu Ihrem Agenten hinzugefügt und für die Verarbeitung von Dateieingaben konfiguriert. Der Ausführungs-Trace im Bereich Ausführungspfad zeigt, wie die einzelnen Anlagen während der Ausführung behandelt wurden.

Ablaufverfolgungen von Dateianhängen

Bei Verwendung des Tools „Dateien analysieren“ werden alle Dateieingaben und Ausgaben im Bereich „Ausführungspfad“ auf der Registerkarte „Verlauf“ erfasst. Die Ablaufverfolgung bietet einen detaillierten Überblick darüber, wie Anhänge während der Ausführung des Agents verarbeitet wurden.

Für jede Datei zeigt die Ablaufverfolgung Folgendes an:

ID: Ein eindeutiger Bezeichner für den Anhang.
Name: Ursprünglicher Dateiname (z. B. 1.jpg).
MIME-Typ: Erkannter Dateityp (z. B. image/jpeg).

Abbildung 2. Die Dateianalyse im Ausführungspfad

Wählen Sie den Toolaufruf aus der Ausführungsablaufverfolgung aus und navigieren Sie zur Registerkarte Trace, um die Datei herunterzuladen.

Abbildung 3. So laden Sie eine Datei aus Ablaufverfolgungen herunter.

Bewährte Methoden und FAQ

Hinweis:

Weitere Details zur Verwendung von Dateien aus Maestro-Prozessen, RPA-Workflows, eigenständigen Agent-Ausführungen oder Processes finden Sie unter Arbeiten mit Dateien.

Mit dem Tool „Dateien analysieren“ können Agents Dokumente und Bilder mit LLMs im Prozess verarbeiten.Trotz ihrer Leistungsfähigkeit gibt es einige wichtige Einschränkungen und Verhaltensweisen, die beim Entwerfen von dateigesteuerten Agents berücksichtigt werden müssen.

Dateilimits

Jede Datei darf 30 MB nicht überschreiten. Es gibt keine erzwungene Begrenzung der Anzahl der Dateien pro Anforderung.

Dateitypunterstützung nach Anbieter

Die Dateiunterstützung hängt vom LLM-Anbieter und dem Modell ab, das Sie für den Agent ausgewählt haben. Obwohl mehrere Anbieter Formate wie PDF, Word-Dokumente, Kalkulationstabellen, HTML, Text, Markdown und Bilder unterstützen, kann jeder Anbieter diese Dateien unterschiedlich verarbeiten, bevor der Inhalt an das Modell gesendet wird. Die Ergebnisse können zwischen Anbietern und Modellen variieren, insbesondere bei Dateien, die Diagramme, eingebettete Bilder, komplexe Layouts, Formeln oder große Tabellen enthalten.

Die folgende Tabelle zeigt die Formate, die von den neuesten von UiPath veröffentlichten Modellen unterstützt werden:

Anbieter / Modellfamilie	Unterstützte Dokument- und Textformate	Unterstützte Bildformate
Anthropic-Modelle über AWS Bedrock	.pdf, .csv, .doc, .docx, .xls, .xlsx, .html, .txt, .md	.gif, .jpe, .jpeg, .pdf, .png, .tiff, .webp
OpenAI GPT-Modelle	.pdf, .csv, .doc, .docx, .xls, .xlsx, .html, .txt, .md	.gif, .jpe, .jpeg, .pdf, .png, .tiff, .webp
Gemini-Modelle durch Vertex AI	.csv, .txt, .md, .html	.gif, .jpe, .jpeg, .pdf, .png, .tiff, .webp

Hinweis:

Die Unterstützung hängt vom ausgewählten Modell und den Funktionen des Anbieters ab. Einige Modelle unterstützen möglicherweise eine Dateierweiterung auf API-Ebene, verarbeiten die Datei intern jedoch unterschiedlich, was die Qualität der Antwort beeinflussen kann.

Dateiunterstützung für benutzerdefinierte LLM-Konfigurationen

Bei Verwendung der Funktion „Bring Your Own LLM“ über AI Trust Layer hängen die von Analyze Files unterstützten Dateitypen vom konfigurierten LLM-Setup ab. Weitere Einzelheiten dazu finden Sie unter Konfiguration von LLMs.

Dateiunterstützung wird bestimmt durch die Kombination aus:

Ausgewählte Anbieter, wie Azure OpenAI, Amazon Web Services oder Google Vertex
Die ausgewählte Modellfamilie und Modellversion
Der konfigurierte API-Typ, wie der Anbieter-Endpunkt, der zum Aufrufen des Modells verwendet wird
Die Dateiverarbeitungsfunktionen, die von diesem Anbieter-Endpunkt offengelegt werden

Ein Dateityp, der mit einem Modell oder einem Anbieter funktioniert, funktioniert möglicherweise nicht mit einem anderen Modell, auch wenn beide Modelle über AI Trust Layer verfügbar sind. Beispielsweise kann die Unterstützung für Dokumente, Kalkulationstabellen, Bilder und PDFs variieren, je nachdem, ob die Anbieter-API diese Dateien direkt akzeptiert, Text aus ihnen extrahiert, in Bilder konvertiert oder einen anbieterspezifischen Vorverarbeitungsschritt anwendet.

UiPath überprüft, ob der konfigurierte LLM-Endpunkt erreichbar und mit der ausgewählten Produktkonfiguration kompatibel ist. Wenn Sie eine benutzerdefinierte LLM-Konfiguration verwenden, sind Sie dafür verantwortlich, dass das konfigurierte Modell, der Anbieter und der API-Typ die Dateitypen unterstützen, die für Ihren Anwendungsfall „Dateien analysieren“ erforderlich sind.

Hinweis:

Die Dateikompatibilität kann sich ändern, wenn Sie von einem von UiPath verwalteten Modell zu einer benutzerdefinierten LLM-Konfiguration wechseln oder wenn Sie den Anbieter, die Modellversion oder den API-Typ ändern.Wenn die Dateianalyse eine Datei nach dem Ändern der LLM-Konfiguration nicht verarbeiten kann, überprüfen Sie den konfigurierten Anbieter, das Modell und den API-Typ in AI Trust Layer.

So funktioniert die Dateiverarbeitung

Wenn eine Datei an ein LLM übergeben wird, erhält das Modell die Originaldatei nicht im vorliegenden Zustand. Die meisten Anbieter wenden einen Vorverarbeitungsschritt an, bevor der Inhalt dem Modellkontext hinzugefügt wird. Das Vorverarbeitungsverhalten hängt vom Dateityp ab.

Für OpenAI-Dateieingaben:

PDF-Dateien können sowohl als extrahierter Text als auch als Seitenbilder in visionsfähigen Modellen verarbeitet werden.
Nicht-PDF-Dokument- und Textdateien werden nur als extrahierter Text verarbeitet.
Kalkulationstabellendateien verwenden einen für Kalkulationstabellen spezifischen Augmentationsflow.OpenAI analysiert die ersten 1.000 Zeilen pro Blatt und fügt Zusammenfassungs- und Header-Metadaten hinzu, damit das Modell mit einer strukturierten Darstellung der Daten arbeiten kann.

Andere Anbieter wie AWS Bedrock und Vertex AI verwenden möglicherweise ähnliche Vorverarbeitungsansätze, aber die genauen Implementierungsdetails sind anbieterspezifisch und möglicherweise nicht vollständig dokumentiert.

Große Dateien können die Tokenlimits überschreiten

Agents verarbeiten Dateien, indem sie deren Inhalt in LLM-Prompts einbetten, die durch das Tokenlimit des Modells eingeschränkt sind. Große PDFs oder gescannte Bilddokumente können im Hintergrund fehlschlagen oder unbestimmte Fehler wie „Ein Fehler ist aufgetreten“ zurückgeben, insbesondere wenn sie das Tokenlimit des Modells überschreiten.

Zur Minderung:

Verwenden Sie Modelle mit höherer Tokenkapazität.
Verwenden Sie abruforientierte Funktionen wie die Dateisuche oder Kontextgrundlage, insbesondere für große oder mehrseitige Dateien.
Sie können Dokumente vorindizieren und sie vor oder während der Ausführung des Agents über benutzerdefinierte Tools synchronisieren.

Umgang mit großen PDFs

Große PDFs können das Tokenbudget des LLM bei vollständiger Verarbeitung überschreiten. Teilen Sie die PDF in kleinere Teile oder einzelne Seiten auf, bevor Sie sie an den Agent weitergeben.

LLMs ändern die Größe von Bildern

Wenn Bilddateien (z. B. .jpg, .png) als Teil des LLM-Prompt gesendet werden, ändern die meisten Modelle automatisch ihre Größe. Dadurch können Seitenverhältnisse verzerrt oder pixelgenaue Daten verloren gehen.

Vermeiden Sie Prompts, die auf exakten Koordinaten, Begrenzungsfeldern oder pixelausgerichteten Vergleichen basieren (z. B. Bildunterschiede, die eine bestimmte x/y-Positionierung erfordern). Weitere Informationen zum modellspezifischen Verhalten bei der Größenänderung finden Sie im Leitfaden zur Bildverarbeitung und -analyse von OpenAI.

Tipps für bessere Ergebnisse

Dateinamen müssen fehlerfrei sein: Insbesondere anthropische Modelle lehnen Dateinamen mit Sonderzeichen oder wiederholten Leerzeichen ab.
Halten Sie die Anzahl der Bilder niedrig: Einige Modelle wie GPT-4o unterstützen maximal 10 bis 50 Bilder pro Anforderung.
Verwenden Sie das PDF-Format, wenn Layout, Grafiken oder Diagramme wichtig sind.Eingebettete Bilder und Diagramme in Nicht-PDF-Formaten wie .docx können möglicherweise nicht in den Modellkontext extrahiert werden.
Verwenden Sie textbasierte Formate wie .txt, .md, oder .html für einfache Document Understanding-Aufgaben.
Verwenden Sie für komplexe Kalkulationstabellenanalysen mit Aggregationen, Verknüpfungen, Formeln oder Diagrammen einen deterministischen Verarbeitungsschritt oder einen dedizierten Datenverarbeitungsworkflow, bevor Sie das Ergebnis an den Agenten übergeben.

War diese Seite hilfreich?

Vorherige (previous)Integrierte Tools

WeiterBatch-Transformation

Das Tool „Dateien analysieren“ hinzufügen​

Ablaufverfolgungen von Dateianhängen​

Bewährte Methoden und FAQ​

Dateilimits​

Dateitypunterstützung nach Anbieter​

Dateiunterstützung für benutzerdefinierte LLM-Konfigurationen​

So funktioniert die Dateiverarbeitung​

Große Dateien können die Tokenlimits überschreiten​

Umgang mit großen PDFs​

LLMs ändern die Größe von Bildern​

Tipps für bessere Ergebnisse​

War diese Seite hilfreich?

Das Tool „Dateien analysieren“ hinzufügen

Ablaufverfolgungen von Dateianhängen

Bewährte Methoden und FAQ

Dateilimits

Dateitypunterstützung nach Anbieter

Dateiunterstützung für benutzerdefinierte LLM-Konfigurationen

So funktioniert die Dateiverarbeitung

Große Dateien können die Tokenlimits überschreiten

Umgang mit großen PDFs

LLMs ändern die Größe von Bildern

Tipps für bessere Ergebnisse