- Erste Schritte
- UiPath Agents in Studio Web
- Über UiPath Agents
- Lizenzierung
- Coded agents in Studio Web
- Ausführung von Agents
- Agents und Workflows
- Bewährte Verfahren zum Erstellen von Agents
- Auswahl des besten Modells für Ihren Agenten
- Best Practices für das Veröffentlichen und Bereitstellen von Agents
- Bewährte Verfahren für Kontext-Engineering
- Best Practices für DeepRAG und Batch-Transformation: JIT im Vergleich zu indexbasierten Strategien
- Aufforderungen
- Arbeiten mit Dateien
- Kontexte
- Eskalationen und Agent-Speicher
- Bewertungen
- Spuren von Agents
- Agent-Punktzahl
- Verwaltung von UiPath Agents
- Codierte UiPath Agents

Benutzerhandbuch zu Agents
Auswerten von Conversational Agents
Bewertungen stellen sicher, dass sich Ihr Konversations-Agent über verschiedene Dialogpfade hinweg zuverlässig verhält. Auf dieser Seite wird beschrieben, wie Sie Ihren Agent mithilfe von Chat Debuggen testen sowie Bewertungssätze erstellen und automatisierte Tests ausführen können.
Debuggen Sie den Chat
Der Debugging-Chat bietet eine Echtzeit-Testumgebung, in der Sie mit Ihrem Agent interagieren und dessen Verhalten überprüfen können.
Eine Debugging-Sitzung wird gestartet
- Öffnen Sie Ihren Konversations-Agent in Studio Web.
- Wählen Sie Debuggen aus, um die Chatoberfläche zu öffnen.
- Senden Sie Nachrichten, um die Antworten Ihres Agents zu testen.

Anzeigen von Ausführungsablaufverfolgungen
Der Bereich Verlauf zeigt Echtzeitdetails der Ausführung des Agents an:
- LLM-Aufrufe: Die an das Modell gesendeten Prompts und empfangenen Antworten.
- Toolaufrufe: Welche Tools aufgerufen wurden, mit Argumenten und Ausgaben.
Erweitern Sie einen beliebigen Schritt, um vollständige Details anzuzeigen, einschließlich Tokenanzahl und Latenz.

Anzeigen von Zitaten
Wenn Ihr Agent Kontextgrundlage verwendet, werden in der Antwort Zitate angezeigt, aus denen hervorgeht, welche Dokumente die Antwort beinhalten.
- Suchen Sie nach Zitatmarkierungen in der Antwort des Agents (in der Regel nummerierte Verweise).
- Wählen Sie ein Zitat aus, um das Quelldokument und den relevanten Auszug anzuzeigen.
- Stellen Sie sicher, dass Zitate die Antwort des Agents genau unterstützen.

Hinzufügen von Konversationen zu Auswertungssätzen
Speichern Sie eine erfolgreiche Testinteraktion für automatisierte Tests:
- Wählen Sie auf der Registerkarte Chat die Option Zum Bewertungssatz hinzufügen.
- Wählen Sie einen vorhandenen Bewertungssatz oder erstellen Sie einen neuen.
Die Konversation wird gespeichert mit:
- Konversationsverlauf: Alle vorangegangenen Schritte im Dialog.
- Aktuelle Benutzermeldung: Die neueste Eingabe des Benutzers.
- Erwartete Agent-Antwort: Die tatsächliche Antwort des Agents (die Sie bearbeiten können).
Auswertungssätze
Bewertungsgruppen sind Sammlungen von Testfällen, die das Verhalten Ihres Agents validieren. Sie unterstützen sowohl Single-Turn- als auch Multi-Turn-Testszenarien.
Eine detaillierte Anleitung zur Bewertung finden Sie unter Agent-Bewertungen
Single-Turn-Auswertungen
Single-Turn-Auswertungen testen isolierte Frage-Antwort-Paare ohne Konversationsverlauf. Es handelt sich um Auswertungstests, bei denen Sie die erste Aufforderung in einer Konversation testen.
Verwenden Sie Single-Turn-Auswertungen für:
- Testen eines bestimmten Wissensabrufs.
- Validierung der Werkzeugauswahl für unterschiedliche Absichten.
- Überprüfen von Antwortformat und Tonfall.
Beispiel:
| Benutzernachricht | Erwartetes Verhalten |
|---|---|
| „Wie viele Feiertage haben wir in den USA?“ | Gibt die korrekte Anzahl zurück und verweist auf das Richtliniendokument |
| „Planen Sie eine Besprechung mit John für morgen um 14 Uhr.“ | Ruft das Kalendertool mit korrekten Parametern auf |
Multi-Turn-Auswertungen
Multi-Turn-Bewertungen testen, wie der Agent mit Konversationskontext und Anschlussfragen umgeht. Es handelt sich um Auswertungstests, bei denen der getestete Prompt der vorherigen Konversation folgt.
Verwenden Sie Multi-Turn-Auswertungen für:
- Testen der Kontextaufbewahrung über Umkehrungen.
- Validierung der Pronomenauflösung(„it“, „hat“, „dieselbe“).
- Überprüfen des Konversationsflusses und der Kohärenz.
Beispiel:
| Wenden | Meldung | Erwartetes Verhalten |
|---|---|---|
| 1 | „Was ist die PTO-Richtlinie?“ | Gibt die Zusammenfassung der PTO-Richtlinie zurück |
| 2 | „Wie beantrage ich eine Auszeit?“ | Verweist auf PTO-Kontext, erklärt den Anforderungsprozess |
| 3 | „Kann ich das per E-Mail tun?“ | Versteht, dass sich „das“ auf die Anforderung einer Auszeit bezieht |
Erstellen von Auswertungstests
Im Debugging-Chat
- Führen Sie eine Konversation im Debugging-Chat aus .
- Wählen Sie im Chat -Bereich die Option Zum Bewertungssatz hinzufügen .
- Der Konversationsaustausch wird als Auswertungstest in Ihrem angegebenen Auswertungssatz hinzugefügt.
Verwenden des Konversationsgenerators
Mit dem Konversationsgenerator können Sie Testfälle mit mehreren Wiederholungen erstellen oder bearbeiten:
- Wählen Sie Auswertungssätze für Ihren Agent in Studio Web.
- Wählen Sie einen Bewertungssatz aus oder erstellen Sie einen neuen. Wenn diese Optionen deaktiviert sind, stellen Sie sicher, dass Sie sich nicht im Debugmodus befinden.
- Wählen Sie Hinzufügen aus, um einen vorhandenen Test festzulegen oder zu bearbeiten.
- Verwenden Sie den Konversationsgenerator für Folgendes:
- Konversationsverlauf wird hinzugefügt.
- Definieren Sie die aktuelle Benutzernachricht.
- Verwenden Sie die Ausgabeeinrichtung , um die Assertion zu definieren
- Geben Sie die erwartete Agent-Antwort für deterministische und LLM-as-a-judge-basierte Auswerter an.
- Geben Sie das „Verhalten und die Ausgabehinweise“ für verlaufsbasierte Auswerter an.

Tool-Simulationen
Mit Simulationen können Sie das Verhalten des Agents testen, ohne echte Tool-Endpunkte auszuführen. Für jeden Auswertungstest können Sie angeben, ob Tools ihre Ausführung tatsächlich ausführen oder simulieren sollen.
Simulationen verbessern die Bewertungen von Agents, indem sie Folgendes ermöglichen:
- Sicheres Testen: Vermeiden Sie unbeabsichtigte Nebeneffekte durch den Aufruf echten APIs oder Diensten.
- Schnellere Ausführung: Überspringen Sie Netzwerklatenz und Verzögerungen externer Dienste.
- Kosteneffiziente Ausführungen: Reduzieren Sie die API-Kosten während iterativer Tests.
- Reproduzierbarkeit: Erhalten Sie konsistente Ergebnisse durch die Steuerung von Toolausgaben.
Sie können das Simulationsverhalten für jeden Auswertungstest konfigurieren:
- Öffnen Sie einen Auswertungssatz.
- Wählen Sie einen Testfall zum Bearbeiten aus.
- Geben Sie in der Testkonfiguration an, welche Tools die Ausführung simulieren sollen.
- Definieren Sie die erwartete simulierte Ausgabe für jedes Tool.
Generieren von Tests mit natürlicher Sprache
Verwenden Sie Autopilot, um Auswertungstests aus Beschreibungen zu generieren:
- Wählen Sie im Bildschirm Evaluierungssätze die Option Erstellen und dann Neuen Evaluierungssatz generieren.
- Beschreiben Sie die Szenarien, die Sie in natürlicher Sprache testen möchten.
- Überprüfen und optimieren Sie die generierten Testfälle.
Beispielprompt:
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Von Autopilot generierte Auswertungstests verwenden automatisch verlaufsbasierte Auswertungen.

Laufende Evaluierungen
Ausführen eines einzelnen Tests
- Wählen Sie einen Testfall aus Ihrem Auswertungssatz aus.
- Wählen Sie Ausgewählte auswerten.
- Überprüfen Sie die Ergebnisse und vergleichen Sie die tatsächliche Ausgabe mit der erwarteten Ausgabe.
Ausführen von Batch-Auswertungen
- Gehen Sie zu den Auswertungssätzen.
- Wählen Sie Ausführen für den gewünschten Evaluierungssatz, um alle Tests auszuführen.
- Überprüfen Sie die Ergebnisse mit den Erfolgs-/Fehlerraten.

Testen mit verschiedenen Modellen
Führen Sie denselben Bewertungssatz mit verschiedenen Modellen durch, um die Leistung zu vergleichen:
- Wählen Sie im Evaluierungssatz Evaluierungseinstellungen , um ein zusätzliches Zielmodell hinzuzufügen.
- Führen Sie die Auswertung aus.
- Vergleichen Sie die Ergebnisse zwischen Modellen, um die beste Wahl für Ihren Anwendungsfall zu ermitteln.
Dies hilft Ihnen, das zu verstehen:
- Welche Modelle für Ihre spezifischen Szenarien am besten funktionieren.
- Kompromisse zwischen Antwortqualität und Latenz.
- Kostenauswirkungen verschiedener Modellauswahlen.
Auswertungsmetriken
Bewertungen bewerten mehrere Dimensionen des Verhaltens von Agents:
| Metrik | Beschreibung |
|---|---|
| Antwortgenauigkeit | Enthält die Antwort korrekte Informationen? |
| Toolauswahl | Hat der Agent das entsprechende Tool ausgewählt? |
| Zitatqualität | Sind Zitate relevant und korrekt? |
| Tonfall und Format | Entspricht die Antwort dem erwarteten Stil? |
| Kontextaufbewahrung | Hält der Agent den Kontext über Rollen hinweg? |
Bewährte Methoden für die Auswertung
Testen Sie sowohl zufriedenstellende als auch fehlerhafte Pfade
Testen Sie nicht nur ideale Szenarien. Einschließen:
- Mehrdeutige Fragen
- Anforderungen außerhalb des Scopes
- Randfälle und Fehlerbedingungen
- Mehrsprachige Eingaben (wenn unterstützt)
Erstellen Sie repräsentative Testsammlungen
Erstellen Sie Bewertungssätze, die reale Nutzungsmuster widerspiegeln:
- Analysieren Sie häufige Benutzeranfragen aus der Produktion
- Fügen Sie Variationen derselben Frage ein
- Testen Sie verschiedene Benutzerpersonas und Kommunikationsstile
Mit den Ergebnissen iterieren
Nutzen Sie Bewertungsfehler, um Ihren Agent zu verbessern:
- Identifizieren Sie Muster in fehlgeschlagenen Tests.
- Aktualisieren Sie Systemprompts oder Toolkonfigurationen.
- Führen Sie Bewertungen erneut durch, um Verbesserungen zu überprüfen.
- Fügen Sie neue Tests für erkannte Randfälle hinzu.
Nächste Schritte
- Bereitstellung: Veröffentlichen Sie Ihren getesteten Agent
- Beobachtbarkeit: Überwachen Sie die Produktionsleistung
- Agent-Evaluierungen: Detaillierte Dokumentation zum Evaluierungsframework
- Debuggen Sie den Chat
- Eine Debugging-Sitzung wird gestartet
- Anzeigen von Ausführungsablaufverfolgungen
- Anzeigen von Zitaten
- Hinzufügen von Konversationen zu Auswertungssätzen
- Auswertungssätze
- Single-Turn-Auswertungen
- Multi-Turn-Auswertungen
- Erstellen von Auswertungstests
- Laufende Evaluierungen
- Ausführen eines einzelnen Tests
- Ausführen von Batch-Auswertungen
- Testen mit verschiedenen Modellen
- Auswertungsmetriken
- Bewährte Methoden für die Auswertung
- Testen Sie sowohl zufriedenstellende als auch fehlerhafte Pfade
- Erstellen Sie repräsentative Testsammlungen
- Mit den Ergebnissen iterieren
- Nächste Schritte