- Erste Schritte
- UiPath Agents in Studio Web
- UiPath Agents in Agent Builder
- Codierte UiPath Agents

Benutzerhandbuch zu Agents
Bewertungen
linkÜber Bewertungen
linkWenn Sie einen Agents erstellen, soll er zuverlässig arbeiten – Sie möchten darauf vertrauen können, dass er konsistent die richtige Ausgabe liefert. Mithilfe von Bewertungen können Sie herausfinden, ob Ihr Agent gute Arbeit leistet oder ob Verbesserungsbedarf besteht.
Terminologie
Eine Bewertung, bildet ein Paar zwischen einer Eingabe und einer Assertion, die für die Ausgabe gemacht wird. Eine Assertion ist eine definierte Bedingung oder Regel, anhand der bewertet wird, ob die Ausgabe des Agents der erwarteten Ausgabe entspricht.
Bewertungsgruppen sind logische Gruppierungen von Bewertungen.
Bewertungsergebnisse geben die Ablaufverfolgung abgeschlossener Bewertungsläufe wider, mit denen die Leistung eines Agents bewertet wird. Während dieser Läufe werden die Genauigkeit, Effizienz und Entscheidungsfähigkeit des Agents gemessen und anhand von dessen Leistung bewertet. Der Bewertungswert bestimmt, wie gut der Agent auf Grundlage der Assertions einer bestimmten Bewertung arbeitet. Die Punktzahl wird auf einer Skala von 0 bis 100 angezeigt. Fehlgeschlagene Bewertungsläufe müssen erneut ausgeführt und eine Fehlersuche durchgeführt werden.
Bewertungen erstellen
linkBevor Sie eine Bewertung erstellen, müssen Sie zuerst Ihren Agents testen, um festzustellen, ob seine Ausgabe korrekt ist oder nicht. Wenn Ihr Agent korrekt arbeitet, können Sie Bewertungen aus der richtigen Ablaufverfolgung erstellen. Wenn Ihr Agent nicht korrekt arbeitet und seine Ausgabe falsch ist, können Sie Bewertungen von Grund auf neu erstellen.
Erstellen von Evaluierungen aus Agent-Testläufen und Ablaufverfolgungen.
- Nachdem Sie Ihren Agent entworfen haben, fügen Sie im Bereich Playground die erforderlichen Eingaben für den Testlauf hinzu und wählen Sie Ausführen.
- Wenn der Lauf abgeschlossen ist und die Ausgabe korrekt ist, klicken Sie auf die Taste Zum Bewertungssatz hinzufügen.
Wenn die Ausgabe des Agents nicht korrekt ist, können Sie:
- Prompt verfeinern: Passen Sie den Prompt an und führen Sie den Agent erneut aus, bis die Ausgabe korrekt ist.
- Bewertungen anhand fehlerhafter Ausgaben erstellen: Generieren Sie Bewertungen basierend auf den fehlerhaften Ausgaben und bearbeiten Sie sie manuell, um sie mit dem erwarteten Ergebnis in Einklang zu bringen.
Alternativ können Sie nach dem Testlauf zur Registerkarte Ablaufverfolgung gehen, um die Details des Testlaufs zu sehen. Wählen Sie Ablaufverfolgung anzeigen und dann Bewertungssatz hinzufügen.
- Wählen Sie Evaluierungssatz erstellen und einen Namen für diesen Satz. Bestätigen Sie Ihre Aktion, indem Sie das Häkchensymbol wählen.
Der neue Satz wird nun im Bereich Bewertungssätze wählen aufgeführt.Wählen Sie diesen und dann Weiter, um zum Fenster Bewertung erstellen zu gelangen. Hier erstellen Sie die erste Bewertung des Satzes.
- Im Fenster Bewertung erstellen sind die Felder Eingabe und Erwartete Ausgabe bereits mit den Eingabe- und Ausgabeargumenten ausgefüllt, die Sie für die Prompt des Agents erstellt haben.Wenn Sie den standardmäßigen Assertionstyp LLM-as-a-Judge verwenden, fügen Sie einen Bewertungsprompt hinzu und wählen Sie dann Erstellen, um die Bewertung abzuschließen.
Erstellen von Bewertungen von Grund auf
- Nachdem Sie Ihren Agent entworfen haben, gehen Sie zur Registerkarte Bewertungen und wählen Sie Satz erstellen.
Sie können auch Importieren wählen, um vorhandene JSON-Daten aus Bewertungen anderer Agents zu verwenden.
- Wählen Sie einen Namen für Ihren neuen Bewertungssatz und Erstellen.
Der Bewertungssatz wird erstellt und das Fenster Bewertung erstellen wird angezeigt.
- Erstellen der erste Bewertung in des Satzes:
- Konfigurieren Sie die Eingabefelder. Diese Felder werden von den Eingabeargumenten geerbt, die Sie für Prompts erstellen.
- Konfigurieren Sie die Erwartete Ausgabe. Diese wird von den Ausgabeargumenten geerbt, die Sie erstellt haben.
- Konfigurieren Sie unter Bewertungseinstellungenfolgende Felder:
- Wählen Sie das Zielfeld der Ausgabe:
-
Zielauswahl auf Root-Ebene (* Alle): Bewertet die gesamte Ausgabe.
-
Feldspezifische Zielausrichtung: Bewertet bestimmte Felder erster Ebene. Wählen Sie ein Feld aus dem Auswahlmenü. Die aufgeführten Ausgabefelder werden von den Ausgabeargumenten geerbt, die Sie für den Systemprompt definiert haben.
-
- Wählen Sie den Typ der Assertion. Dies ist die Bewertungsmethode:
- LLM-as-a-Judge (Standardmethode)
- Empfohlen als Standardansatz, wenn Sie die Root-Ausgabe anvisieren.
- Bietet flexible Bewertung komplexer Ausgaben.
- Kann Qualität und Korrektheit über den exakten Vergleich hinaus bewerten.
- Am besten geeignet, wenn Sie Argumentation, Antworten in natürlicher Sprache oder komplexe strukturierte Ausgaben bewerten.
- Equals
- Empfehlenswert, wenn Sie genaue Übereinstimmungen erwarten.
- Am effektivsten, wenn die Prompts streng definiert sind.
- Funktioniert mit komplexen Objekten, eignet sich jedoch am besten für:
- Boolesche Antworten (wahr/falsch)
- Spezifische numerische Werte
- Genaue Übereinstimmungen mit Zeichenfolgen
- Arrays aus primitiven Datentypen.
- LLM-as-a-Judge (Standardmethode)
- Wählen Sie das Zielfeld der Ausgabe:
- Wähle Erstellen, um die neue Bewertung zu speichern.
Strukturierung deines Prompts
Eine gut strukturierte Ausgabe sorgt für zuverlässigere Bewertungen. Deshalb ist es gut, strukturierte Ausgaben zu haben – sie gewährleisten Konsistenz und erleichtern Vergleiche.
Als Experte analysierst du die semantische Ähnlichkeit dieser JSON-Inhalte, um eine Punktzahl von 0 bis 100 zu ermitteln. Vergleiche die Bedeutung und kontextuelle Äquivalenz entsprechender Felder, berücksichtige alternative gültige Ausdrücke, Synonyme und angemessene Sprachvarianten und achte dabei auf hohe Standards hinsichtlich Genauigkeit und Vollständigkeit. Begründe deine Punktzahl, indem du kurz und prägnant die Gründe für die Punktzahl nennst.
Erwartete Ausgabe: {{ExpectedOutput}}
ActualOutput: {{ActualOutput}}
Anzahl der Bewertungen
Nehmen Sie für einfache Agents ungefähr 30 Bewertungen in 1 bis 3 Bewertungsätzen vor.Für komplexere Agents wird mindestens die doppelte Anzahl empfohlen.
Die Anzahl der Bewertungen hängt ab von:
- Komplexität des Agents
- Anzahl der Eingabeparameter
- Komplexität der Ausgabestruktur
- Nutzungsmuster von Tools
- Entscheidungsbäume
- Eingabe
- Spektrum möglicher Eingaben: Datentypen, Wertebereiche, optionale Felder
- Randfälle
- Nutzungsmuster
- Häufige Anwendungsfälle
- Verschiedene Nutzerprofile
- Fehlerszenarien
Auswertungssätze
Durch die Gruppierung in Sätzen lassen sich Bewertungen besser organisieren. Diese können zum Beispiel wie folgt aussehen:
- Ein Satz für die vollständige Bewertung der Ausgabe
- Ein weiteres Beispiel für Randfälle
- Ein weiteres zur Korrektur von Rechtschreibfehlern.
Grundsätze der Abdeckung
- Logische Abdeckung: Erstellt eine Übersicht über Eingabekombinationen, Randfälle und Randbedingungen.
- Redundanzmanagement: Ziel ist es, für jeden logisch äquivalenten Fall 3 bis 5 verschiedene Bewertungen durchzuführen.
- Qualität vor Quantität: Mehr Bewertungen führen nicht zwangsläufig zu besseren Ergebnissen. Fokus auf sinnvolle Tests.
Der richtige Zeitpunkt für Erstellung von Bewertungen
Erstellen Sie Bewertungen, sobald die Argumente stabil oder vollständig sind. Dies bedeutet auch, dass Ihr Anwendungsfall festgelegt wurde und der Prompt, die Tools sowie Indizes für die Kontextgrundlage finalisiert sind.
Wenn Sie die Argumente ändern, müssen Sie Ihre Bewertungen entsprechend anpassen. Um zusätzlichen Arbeitsaufwand zu minimieren, ist es am besten, mit stabilen Agents zu beginnen, die auf gut definierte Anwendungsfälle zugeschnitten sind.
Sie können Bewertungssätze zwischen Agents innerhalb derselben Organisation oder zwischen verschiedenen Organisationen exportieren und importieren.Solange das Design Ihres Agent feststeht, können Sie Bewertungen nach Bedarf verschieben, ohne sie von Grund auf neu erstellen zu müssen.