agents
latest
false
Wichtig :
Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.
UiPath logo, featuring letters U and I in white

Benutzerhandbuch zu Agents

Letzte Aktualisierung 13. März 2026

Auswerten von Conversational Agents

Bewertungen stellen sicher, dass sich Ihr Konversations-Agent über verschiedene Dialogpfade hinweg zuverlässig verhält. Auf dieser Seite wird beschrieben, wie Sie Ihren Agent mithilfe von Chat Debuggen testen sowie Bewertungssätze erstellen und automatisierte Tests ausführen können.

Debuggen Sie den Chat

Der Debugging-Chat bietet eine Echtzeit-Testumgebung, in der Sie mit Ihrem Agent interagieren und dessen Verhalten überprüfen können.

Eine Debugging-Sitzung wird gestartet

  1. Öffnen Sie Ihren Konversations-Agent in Studio Web.
  2. Wählen Sie Debuggen aus, um die Chatoberfläche zu öffnen.
  3. Senden Sie Nachrichten, um die Antworten Ihres Agents zu testen.

Debug Chat-Oberfläche

Anzeigen von Ausführungsablaufverfolgungen

Der Bereich Verlauf zeigt Echtzeitdetails der Ausführung des Agents an:

  • LLM-Aufrufe: Die an das Modell gesendeten Prompts und empfangenen Antworten.
  • Toolaufrufe: Welche Tools aufgerufen wurden, mit Argumenten und Ausgaben.

Erweitern Sie einen beliebigen Schritt, um vollständige Details anzuzeigen, einschließlich Tokenanzahl und Latenz.

Bereich Ablaufverfolgung der Ausführung

Anzeigen von Zitaten

Wenn Ihr Agent Kontextgrundlage verwendet, werden in der Antwort Zitate angezeigt, aus denen hervorgeht, welche Dokumente die Antwort beinhalten.

  1. Suchen Sie nach Zitatmarkierungen in der Antwort des Agents (in der Regel nummerierte Verweise).
  2. Wählen Sie ein Zitat aus, um das Quelldokument und den relevanten Auszug anzuzeigen.
  3. Stellen Sie sicher, dass Zitate die Antwort des Agents genau unterstützen.

Zitatansicht

Hinzufügen von Konversationen zu Auswertungssätzen

Speichern Sie eine erfolgreiche Testinteraktion für automatisierte Tests:

  1. Wählen Sie auf der Registerkarte Chat die Option Zum Bewertungssatz hinzufügen.
  2. Wählen Sie einen vorhandenen Bewertungssatz oder erstellen Sie einen neuen.

Die Konversation wird gespeichert mit:

  • Konversationsverlauf: Alle vorangegangenen Schritte im Dialog.
  • Aktuelle Benutzermeldung: Die neueste Eingabe des Benutzers.
  • Erwartete Agent-Antwort: Die tatsächliche Antwort des Agents (die Sie bearbeiten können).

Auswertungssätze

Bewertungsgruppen sind Sammlungen von Testfällen, die das Verhalten Ihres Agents validieren. Sie unterstützen sowohl Single-Turn- als auch Multi-Turn-Testszenarien.

Eine detaillierte Anleitung zur Bewertung finden Sie unter Agent-Bewertungen

Single-Turn-Auswertungen

Single-Turn-Auswertungen testen isolierte Frage-Antwort-Paare ohne Konversationsverlauf. Es handelt sich um Auswertungstests, bei denen Sie die erste Aufforderung in einer Konversation testen.

Verwenden Sie Single-Turn-Auswertungen für:

  • Testen eines bestimmten Wissensabrufs.
  • Validierung der Werkzeugauswahl für unterschiedliche Absichten.
  • Überprüfen von Antwortformat und Tonfall.

Beispiel:

BenutzernachrichtErwartetes Verhalten
„Wie viele Feiertage haben wir in den USA?“Gibt die korrekte Anzahl zurück und verweist auf das Richtliniendokument
„Planen Sie eine Besprechung mit John für morgen um 14 Uhr.“Ruft das Kalendertool mit korrekten Parametern auf

Multi-Turn-Auswertungen

Multi-Turn-Bewertungen testen, wie der Agent mit Konversationskontext und Anschlussfragen umgeht. Es handelt sich um Auswertungstests, bei denen der getestete Prompt der vorherigen Konversation folgt.

Verwenden Sie Multi-Turn-Auswertungen für:

  • Testen der Kontextaufbewahrung über Umkehrungen.
  • Validierung der Pronomenauflösung(„it“, „hat“, „dieselbe“).
  • Überprüfen des Konversationsflusses und der Kohärenz.

Beispiel:

WendenMeldungErwartetes Verhalten
1„Was ist die PTO-Richtlinie?“Gibt die Zusammenfassung der PTO-Richtlinie zurück
2„Wie beantrage ich eine Auszeit?“Verweist auf PTO-Kontext, erklärt den Anforderungsprozess
3„Kann ich das per E-Mail tun?“Versteht, dass sich „das“ auf die Anforderung einer Auszeit bezieht

Erstellen von Auswertungstests

Im Debugging-Chat
  1. Führen Sie eine Konversation im Debugging-Chat aus .
  2. Wählen Sie im Chat -Bereich die Option Zum Bewertungssatz hinzufügen .
  3. Der Konversationsaustausch wird als Auswertungstest in Ihrem angegebenen Auswertungssatz hinzugefügt.
Verwenden des Konversationsgenerators

Mit dem Konversationsgenerator können Sie Testfälle mit mehreren Wiederholungen erstellen oder bearbeiten:

  1. Wählen Sie Auswertungssätze für Ihren Agent in Studio Web.
  2. Wählen Sie einen Bewertungssatz aus oder erstellen Sie einen neuen. Wenn diese Optionen deaktiviert sind, stellen Sie sicher, dass Sie sich nicht im Debugmodus befinden.
  3. Wählen Sie Hinzufügen aus, um einen vorhandenen Test festzulegen oder zu bearbeiten.
  4. Verwenden Sie den Konversationsgenerator für Folgendes:
    • Konversationsverlauf wird hinzugefügt.
    • Definieren Sie die aktuelle Benutzernachricht.
  5. Verwenden Sie die Ausgabeeinrichtung , um die Assertion zu definieren
    • Geben Sie die erwartete Agent-Antwort für deterministische und LLM-as-a-judge-basierte Auswerter an.
    • Geben Sie das „Verhalten und die Ausgabehinweise“ für verlaufsbasierte Auswerter an.

Conversation Builder

Tool-Simulationen

Mit Simulationen können Sie das Verhalten des Agents testen, ohne echte Tool-Endpunkte auszuführen. Für jeden Auswertungstest können Sie angeben, ob Tools ihre Ausführung tatsächlich ausführen oder simulieren sollen.

Simulationen verbessern die Bewertungen von Agents, indem sie Folgendes ermöglichen:

  • Sicheres Testen: Vermeiden Sie unbeabsichtigte Nebeneffekte durch den Aufruf echten APIs oder Diensten.
  • Schnellere Ausführung: Überspringen Sie Netzwerklatenz und Verzögerungen externer Dienste.
  • Kosteneffiziente Ausführungen: Reduzieren Sie die API-Kosten während iterativer Tests.
  • Reproduzierbarkeit: Erhalten Sie konsistente Ergebnisse durch die Steuerung von Toolausgaben.

Sie können das Simulationsverhalten für jeden Auswertungstest konfigurieren:

  1. Öffnen Sie einen Auswertungssatz.
  2. Wählen Sie einen Testfall zum Bearbeiten aus.
  3. Geben Sie in der Testkonfiguration an, welche Tools die Ausführung simulieren sollen.
  4. Definieren Sie die erwartete simulierte Ausgabe für jedes Tool.
Generieren von Tests mit natürlicher Sprache

Verwenden Sie Autopilot, um Auswertungstests aus Beschreibungen zu generieren:

  1. Wählen Sie im Bildschirm Evaluierungssätze die Option Erstellen und dann Neuen Evaluierungssatz generieren.
  2. Beschreiben Sie die Szenarien, die Sie in natürlicher Sprache testen möchten.
  3. Überprüfen und optimieren Sie die generierten Testfälle.

Beispielprompt:

Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Hinweis:

Von Autopilot generierte Auswertungstests verwenden automatisch verlaufsbasierte Auswertungen.

Testdialogfeld generieren

Laufende Evaluierungen

Ausführen eines einzelnen Tests

  1. Wählen Sie einen Testfall aus Ihrem Auswertungssatz aus.
  2. Wählen Sie Ausgewählte auswerten.
  3. Überprüfen Sie die Ergebnisse und vergleichen Sie die tatsächliche Ausgabe mit der erwarteten Ausgabe.

Ausführen von Batch-Auswertungen

  1. Gehen Sie zu den Auswertungssätzen.
  2. Wählen Sie Ausführen für den gewünschten Evaluierungssatz, um alle Tests auszuführen.
  3. Überprüfen Sie die Ergebnisse mit den Erfolgs-/Fehlerraten.

Evaluation results

Testen mit verschiedenen Modellen

Führen Sie denselben Bewertungssatz mit verschiedenen Modellen durch, um die Leistung zu vergleichen:

  1. Wählen Sie im Evaluierungssatz Evaluierungseinstellungen , um ein zusätzliches Zielmodell hinzuzufügen.
  2. Führen Sie die Auswertung aus.
  3. Vergleichen Sie die Ergebnisse zwischen Modellen, um die beste Wahl für Ihren Anwendungsfall zu ermitteln.

Dies hilft Ihnen, das zu verstehen:

  • Welche Modelle für Ihre spezifischen Szenarien am besten funktionieren.
  • Kompromisse zwischen Antwortqualität und Latenz.
  • Kostenauswirkungen verschiedener Modellauswahlen.

Auswertungsmetriken

Bewertungen bewerten mehrere Dimensionen des Verhaltens von Agents:

MetrikBeschreibung
AntwortgenauigkeitEnthält die Antwort korrekte Informationen?
ToolauswahlHat der Agent das entsprechende Tool ausgewählt?
ZitatqualitätSind Zitate relevant und korrekt?
Tonfall und FormatEntspricht die Antwort dem erwarteten Stil?
KontextaufbewahrungHält der Agent den Kontext über Rollen hinweg?

Bewährte Methoden für die Auswertung

Testen Sie sowohl zufriedenstellende als auch fehlerhafte Pfade

Testen Sie nicht nur ideale Szenarien. Einschließen:

  • Mehrdeutige Fragen
  • Anforderungen außerhalb des Scopes
  • Randfälle und Fehlerbedingungen
  • Mehrsprachige Eingaben (wenn unterstützt)

Erstellen Sie repräsentative Testsammlungen

Erstellen Sie Bewertungssätze, die reale Nutzungsmuster widerspiegeln:

  • Analysieren Sie häufige Benutzeranfragen aus der Produktion
  • Fügen Sie Variationen derselben Frage ein
  • Testen Sie verschiedene Benutzerpersonas und Kommunikationsstile

Mit den Ergebnissen iterieren

Nutzen Sie Bewertungsfehler, um Ihren Agent zu verbessern:

  1. Identifizieren Sie Muster in fehlgeschlagenen Tests.
  2. Aktualisieren Sie Systemprompts oder Toolkonfigurationen.
  3. Führen Sie Bewertungen erneut durch, um Verbesserungen zu überprüfen.
  4. Fügen Sie neue Tests für erkannte Randfälle hinzu.

Nächste Schritte

War diese Seite hilfreich?

Verbinden

Benötigen Sie Hilfe? Support

Möchten Sie lernen? UiPath Academy

Haben Sie Fragen? UiPath-Forum

Auf dem neuesten Stand bleiben