agents

latest

false

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Benutzerhandbuch zu Agents

Letzte Aktualisierung 19. Dez. 2025

Bewertungen

Über Bewertungen

Wenn Sie einen Agents erstellen, soll er zuverlässig arbeiten – Sie möchten darauf vertrauen können, dass er konsistent die richtige Ausgabe liefert. Mithilfe von Bewertungen können Sie herausfinden, ob Ihr Agent gute Arbeit leistet oder ob Verbesserungsbedarf besteht.

Terminologie

Eine Evaluierung bildet ein Paar zwischen einer Eingabe und einer Assertion – oder einem Evaluierer –, die für die Ausgabe vorgenommen wurde.Der Evaluator ist eine definierte Bedingung oder Regel, mit der bewertet wird, ob die Ausgabe des Agents der erwarteten Ausgabe oder dem erwarteten Pfad entspricht.

Wvaluierungssätze sind logische Gruppierungen von Evaluierungen und Evaluierer.

Evaluierungsergebnisse geben die Ablaufverfolgung abgeschlossener Evaluierungsläufe wider, mit denen die Leistung eines Agents bewertet wird. Während dieser Läufe werden die Genauigkeit, Effizienz und Entscheidungsfähigkeit des Agents gemessen und anhand dessen Leistung bewertet.

Der Evaluierungswert bestimmt, wie gut der Agent auf Grundlage der Assertionen einer bestimmten Evaluierung arbeitet. Die Punktzahl wird auf einer Skala von 0 bis 100 angezeigt. Wenn Evaluierungsläufe fehlgeschlagen sind, müssen Sie die Ursache diagnostizieren, Debuggen und die Läufe erneut ausführen.

Bewertungen erstellen

Bevor Sie skalierte Evaluierungen erstellen, können Sie Ihren Agent zuerst in Off-Szenarien testen, um zu sehen, ob der Agent seine Aufgabe ausführen kann und ob die Ausgabe korrekt ist oder nicht. Wenn Ihr Agent die korrekte Ausgabe generiert, können Sie Evaluierungen aus den korrekten Ausführungen erstellen. Wenn Ihr Agent nicht die richtige Ausgabe generiert, können Sie den Fehler in der Ausgabe beheben und eine Evaluierung mit der erwarteten Ausgabe erstellen, Sie können Evaluierungen von Grund auf neu erstellen.

Erstellen von Evaluierungen aus Testläufen

Nachdem Sie Ihren Agent entworfen haben, wählen Sie Konfiguration debuggen.
Bestätigen Sie im Fenster Konfiguration debuggen die in der Lösung verwendeten Ressourcen und:
1. Geben Sie die Eingabe für den Testlauf an:
  - Nehmen Sie manuelle Eingaben vor, indem Sie den Inhalt eingeben, oder
  - Simulieren Sie Eingaben: Generieren Sie mithilfe eines LLM Eingaben für die Argumente Ihres Agents. Sie können das LLM Eingaben automatisch generieren lassen oder Prompts bereitstellen, um diese auf bestimmte Beispiele auszurichten.
2. Konfigurieren Sie, ob Sie einen Test mit echten Tools ausführen oder eines, mehrere oder alle Ihre Tools simulieren lassen möchten.
  - Tools simulieren: Simulieren Sie mithilfe eines LLM ein oder mehrere Agententools. Beschreiben Sie, wie jedes Tool reagieren sollte, und simulieren Sie teilweise oder vollständige Toolsätze, auf die Ihr Agent sich verlässt.
Wählen Sie Speichern und Debuggen. Die Ergebnisse werden im unteren Bereich des Ausführungspfads angezeigt. Es sind Indikatoren verfügbar, die anzeigen, ob Ihr Agent mit realen oder simulierten Daten ausgeführt wird.
Wenn die Ausgabe korrekt ist, wählen Sie die Taste Der Evaluierungssammlung hinzufügen. Wenn die Ausgabe nicht korrekt ist, können Sie:
- Den Prompt verfeinern: Passen Sie den Prompt an und testen Sie den Agent so lange, bis die Ausgabe korrekt ist.
- Bewertungen anhand fehlerhafter Ausgaben erstellen: Generieren Sie Bewertungen basierend auf den fehlerhaften Ausgaben und bearbeiten Sie sie manuell, um sie mit dem erwarteten Ergebnis in Einklang zu bringen.
Testläufe sind im Fenster Zum Evaluierungssatz hinzufügen aufgeführt. Wählen Sie Zum Standardsatz hinzufügen für jede Ausführung, die Sie einer Evaluierung hinzufügen möchten. Wenn Sie bereits einen Evaluierungssatz erstellt haben, können Sie ihn aus der verfügbaren Auswahlliste auswählen.
Gehen Sie als Nächstes zum Bereich Evaluierungssätze. Es sind drei Optionen verfügbar:
1. Organisieren Sie mithilfe des vordefinierten Evaluierungssatzes Ihre Evaluierungen.
2. Generieren Sie einen neuen Satz mit simulierten Eingaben und Tools.
3. Fügen Sie vorhandenen Sätzen mit realen und simulierten Daten Evaluierungen hinzu.
Wählen Sie Evaluierungssatz, um die Evaluierungen auszuführen. Sie können auch bestimmte Evaluierungen aus dem Evaluierungsset auswählen, die Sie evaluieren möchten.
Gehen Sie zur Registerkarte Ergebnisse, um den Evaluierungswert und weitere Einzelheiten zu sehen.

Erstellen von Bewertungen von Grund auf

Nachdem Sie Ihren Agent entworfen haben, gehen Sie zur Registerkarte Evaluierungssätze und wählen Sie Neuen erstellen. Sie können auch Importieren wählen, um vorhandene JSON-Daten aus Bewertungen anderer Agents zu verwenden.
Fügen Sie einen aussagekräftigen Namen für den Evaluierungssatz hinzu.
Wählen Sie Dem Satz hinzufügen, um neue Evaluierungen zu erstellen. Für jede neue Evaluierung im Satz:
1. Fügen Sie einen Namen hinzu.
2. Fügen Sie Werte für die Eingabefelder (von den definierten Eingabeargumenten geerbt) und die erwartete Ausgabe hinzu.
3. Wählen Sie Speichern.
Als Nächstes wählen Sie Evaluierer zuweisen, um dem Evaluierungssatz Evaluierer zuzuweisen. Sie können einem Evaluierungssatz einen oder mehrere Evaluierer zuweisen.
Wählen Sie Änderungen speichern.
Wählen Sie auf der Hauptseite Evaluierungssätze die Option Evaluierungssatz ausführen für jeden Satz, den Sie ausführen möchten.
Gehen Sie zur Registerkarte Ergebnisse, um den Evaluierungswert und weitere Einzelheiten zu sehen.

Erstellen von Evaluierungen aus Runtime-Ablaufverfolgungen

Sie können Agentenevaluierungen direkt aus den Runtime-Ablaufverfolgungen erstellen, sodass Sie Feedback aus der Produktion in umsetzbare Testfälle für Verbesserungen während der Entwurfsphase umwandeln können.

Führen Sie zuerst Ihren Agent aus.
Gehen Sie in Orchestrator zu Automatisierungen > Aufträge und öffnen Sie die Auftragsverfolgung für die Ausführung des Agents. Alternativ können Sie zur Seite Instanzverwaltung von Agents gehen, um Ablaufverfolgungen zu Ausführungen von Agents zu sehen.
Feedback zu den Ausführungen des Agents geben:
- Wählen Sie für jede Ablaufverfolgung das Symbol „Daumen nach oben“ oder „Daumen nach unten“.
- Fügen Sie einen Kommentar hinzu, um die Bewertung umsetzbar zu machen.
Abrufen der Runtime-Ablaufverfolgung in der Agentendefinition:
- Gehen Sie zurück zu Ihrem Agent in Studio Web und gehen Sie zu Evaluierungen > Evaluierungssätze.
- Wählen Sie unter der Taste Erstellen die Option Runtime-Ablaufverfolgungen abrufen, um Ablaufverfolgungen samt erhaltenem Feedback abzurufen.
Einem Evaluierungssatz Ablaufverfolgungen hinzufügen:
- Wählen Sie in den abgerufenen Ablaufverfolgungen die Option Dem Evaluierungssatz hinzufügen.
- Bearbeiten Sie bei Bedarf die Eingabe und die erwartete Ausgabe.
- Speichern Sie die Ablaufverfolgung in dem ausgewählten Evaluierungssatz.
Speichern Sie die Ablaufverfolgung in dem ausgewählten Evaluierungssatz.

Nach dem Hinzufügen sind die Runtime-Ablaufverfolgungen eindeutig als Runtime-Ausführungen innerhalb des Evaluierungssatzes gekennzeichnet, sodass sie leicht von Offline-Testläufen unterschieden werden können. Diese Ablaufverfolgungen aktualisieren auch automatisch die Gesamtbewertung des Agents, sodass Sie sofort sehen können, wie sich die Leistung des Agents durch echtes Feedback verbessert.

Generieren von Evaluierungen

Sie können auch Evaluierungssätze mit Simulationen erstellen. Generieren Sie mithilfe von simulierten Eingaben und Tools neue Evaluierungssätze (oder fügen Sie vorhandene hinzu).

Wählen Sie Erstellen.
Wählen Sie Einen neuen Auswertungssatz generieren aus.Sie können das LLM den Auswertungssatz basierend auf Ihren vorhandenen Agenten, seinen Designausführungen und Argumenten automatisch generieren lassen oder Prompts bereitstellen, um ihn auf bestimmte Beispiele zu lenken.Weitere Details finden Sie unter Konfigurieren von Simulationen in Auswertungen.

Definieren von Evaluierern

Über den Bereich Evaluierer können Sie Ihre Evaluierer erstellen und verwalten. Standardmäßig verfügt jeder Agent über einen vordefinierten, LLM-basierten Standardevaluierer.

So erstellen Sie Ihre eigenen Evaluierer:

Wählen Sie Neuen erstellen:
Wählen Sie den Typ des Auswerters aus: a. LLM-as-a judge: Semantische Ähnlichkeit – Erstellt Ihren eigenen LLM-basierten Auswerter.b. Exakte Übereinstimmung – Überprüft, ob die Ausgabe des Agents mit der erwarteten Ausgabe übereinstimmt. c. JSON-Ähnlichkeit – Überprüft, ob zwei JSON-Strukturen oder -Werte ähnlich sind. d. Pfadevaluator – Verwendet KI, um den Agent basierend auf dem Laufverlauf und dem erwarteten Verhalten zu beurteilen.
Wählen Sie die Schaltfläche zum Fortfahren aus.
Konfigurieren Sie den Auswerter: a. Fügen Sie einen relevanten Namen und eine Beschreibung hinzu. b. Wählen Sie die Zielfelder für die Ausgabe:
- Zielsetzung auf Stammebene (Alle): Bewertet die gesamte Ausgabe.
- Feldspezifische Zielausrichtung: Bewertet bestimmte Felder erster Ebene. Wählen Sie ein Feld aus dem Auswahlmenü. Die aufgeführten Ausgabefelder werden von den Ausgabeargumenten geerbt, die Sie für den Systemprompt definiert haben. c.Fügen Sie einen Prompt hinzu (nur für den LLM-basierten Evaluierer).

Auswahl des Evaluierertyps

Wenn Sie nicht wissen, welcher Evaluierertyp Ihren Anforderungen entspricht, folgen Sie folgenden Empfehlungen:

LLM-as-a-Judge:
- Empfohlen als Standardansatz, wenn Sie die Root-Ausgabe anvisieren.
- Bietet flexible Bewertung komplexer Ausgaben.
- Kann Qualität und Korrektheit über den exakten Vergleich hinaus bewerten.
- Am besten geeignet, wenn Sie Argumentation, Antworten in natürlicher Sprache oder komplexe strukturierte Ausgaben bewerten.
Deterministisch (Exakte Übereinstimmung oder JSON-Ähnlichkeit):
- Empfehlenswert, wenn Sie genaue Übereinstimmungen erwarten.
- Am effektivsten, wenn die Prompts streng definiert sind.
- Funktioniert mit komplexen Objekten, eignet sich jedoch am besten für:
  - Boolesche Antworten (wahr/falsch)
  - Spezifische numerische Werte
  - Genaue Übereinstimmungen mit Zeichenfolgen
  - Arrays aus primitiven Datentypen.

Konfigurieren von Simulationen in Evaluierungen

Hinweis:

Diese Funktion ist in der Vorschau verfügbar.

Simulationen verbessern die Agentenevaluierung, indem sie sichere, schnelle und kostengünstige Tests mithilfe von nachgebildeten Tool- und Eskalationsverhalten anstelle von realen Endpunkten ermöglichen. Sie bieten ein Steuerelement auf Evaluierungsebene, sodass Teams definieren können, welche Komponenten simuliert werden sollen, sowie reale und simulierte Ausführungen innerhalb desselben Evaluierungssatzes kombinieren können. Diese Flexibilität unterstützt feste oder generierte Eingaben sowie sowohl die wörtliche Ausgabe als auch die verhaltensbasierte Einstufung, verbessert die Testabdeckung und Reproduzierbarkeit sowie die Möglichkeit zu bewerten, ob sich Agents wie erwartet verhalten.

Weitere Informationen finden Sie unter Konfigurieren von Simulationen für Agent-Tools.

So richten Sie Evaluierungssimulationen ein

Um neue Evaluierungssätze mithilfe von Simulationen einzurichten, führen Sie diese Schritte aus:

Wählen Sie auf der Registerkarte Evaluierungssätze die Option Erstellen und dann Neuen Evaluierungssatz generieren.
Geben Sie eine Beschreibung der Evaluierungsfälle ein, die Sie generieren möchten. Sie können einen übergeordneten Kontext, bestimmte Szenarien oder relevante Inhalte einfügen, um die Generierung zu steuern. Wenn Sie dieses Feld leer lassen, werden trotzdem Evaluierungsfälle automatisch für Sie generiert.
Wählen Sie Bewertungen generieren. Autopilot generiert mehrere Evaluierungen. Zu jeder Evaluierung können Sie sich die Simulationsanweisungen, Anweisungen zur Eingabegenerierung und die Hinweise zum erwarteten Verhalten anzeigen lassen und bearbeiten.
Wählen Sie, welche Evaluierungen Sie verwenden möchten, und wählen Sie dann Satz hinzufügen.

Generieren eines neuen Evaluierungssatzes

Hinzufügen von generierten Evaluierungen zu einem Satz

Um Simulationen für vorhandene Evaluierungen zu konfigurieren, führen Sie folgende Schritte aus:

Öffnen Sie einen beliebigen Evaluierungssatz und wählen Sie in einer beliebigen Evaluierung Bearbeiten. Der Bereich Evaluierung bearbeiten wird angezeigt.
Definieren oder generieren Sie im Abschnitt Anordnen Eingabedaten mithilfe manueller Werte oder Anweisungen zur Generierung während der Runtime. Wenn Sie die Eingabedaten manuell definieren, können Sie das Feld Testing auf Wahr setzen, um anzugeben, dass es Teil eines Testszenarios ist.
Wählen Sie im Abschnitt Handeln, ob jedes Tool das Verhalten simulieren (simuliert) oder echte Aufrufe ausführen soll, und fügen Sie Simulationsanweisungen hinzu. Toolausführung ist die Standardeinstellung.
Geben Sie im Abschnitt Durchsetzen an, ob die Evaluierung auf der Übereinstimmung der Ausgabe oder auf dem Agentenpfad basiert, und beschreiben Sie das erwartete Verhalten und die Ausgabe.
Wählen Sie Speichern, um Ihre Konfiguration zu übernehmen.

Abbildung 1. Konfigurieren von Toolsimulationen in Evaluierungen

docs image

Testing model settings within evaluations

You can use evaluation sets to compare different model configurations and understand how they affect your agent’s behavior. Evaluations allow you to test multiple model/temperature combinations side by side, using the same scenarios and expected outputs. This helps you identify the configuration that delivers the right balance of accuracy, speed, and cost.

From the Agent Builder Explorer panel, select Evaluation sets.
Select an evaluation set.
Select the gear icon to open Evaluation settings.
In the Evaluation set properties panel, add multiple temperature and model combinations. For example:
- Temperature 0.2, Model A
- Temperature 0.5, Model A
- Temperature 0.7, Model A
- Temperature 0.5, Model B
Each configuration creates a separate evaluation run.
Select Evaluate set to run all configurations. After the runs complete, open the Results tab to compare them.

For details, refer to Choosing the best model for your agent.

Arbeiten mit Evaluierungen

Wo Sie mit Evaluierung arbeiten können

Je nach Workflow können Sie mit Evaluierungen an zwei Stellen arbeiten:

Unterer Bereich auf der Designfläche – Darüber können Sie schnell auf Evaluierungen zugreifen, während Sie aktiv Ihren Agent erstellen oder testen. In dem Bereich finden Sie:
- Die Registerkarte Verlauf, auf der Sie frühere Ausführungen mit der vollständigen Ablaufverfolgung sehen und direkt den Evaluierungssätzen hinzufügen können.
- Die Registerkarte Evaluierungen, auf der Sie Ihre Evaluierungssätze sehen, die letzten Bewertungen überprüfen, Details analysieren oder Tests einzeln oder als vollständiger Satz wiederholen können. Sie können auch die tatsächlichen mit den erwarteten Ausgaben vergleichen und die Evaluierungen mit der tatsächlichen Ausgabe aktualisieren, sofern sie korrekt sind.
- Die Registerkarte Ausführungspfad, auf der Sie die Details zur Ablaufverfolgung der aktuellen Ausführung in Echtzeit verfolgen können. Bei Conversational Agents ist diese Registerkarte als Chat verfügbar, wobei ein interaktives Chatfenster zum Testen des Agents sowie die Anzeige des Ausführungspfads für jeden Gesprächsaustausch bereitgestellt wird.
Registerkarte „Evaluierungen“ unter der Agentendefinition – Stellt den vollständigen Arbeitsbereich „Evaluierungen“ bereit. Von hier aus können Sie Evaluierungssätze erstellen und organisieren, Evaluatoren zuweisen, Eingaben und erwartete Ausgaben konfigurieren sowie Evaluierungen in großem Umfang ausführen. Hier können Sie am besten strukturierte Evaluierungsszenarien einrichten und Evaluierungsressourcen im Laufe der Zeit verwalten.

Der untere Bereich ist nützlich während der täglichen Iteration und Fehlersuche, während die spezielle Registerkarte „Evaluierungen“ sich besser für die vollständige Verwaltung und Konfiguration von Evaluierungssätzen eignet.

Strukturierung Ihres Evaluierungsprompts

Eine gut strukturierte Ausgabe sorgt für zuverlässigere Bewertungen. Deshalb ist es gut, strukturierte Ausgaben zu haben – sie gewährleisten Konsistenz und erleichtern Vergleiche.

Hier ist ein Beispiel für einen vordefinierten Prompt, der die gesamte Ausgabe evaluiert:

Beispiel für einen Prompt

Als Experte analysierst du die semantische Ähnlichkeit dieser JSON-Inhalte, um eine Punktzahl von 0 bis 100 zu ermitteln. Vergleiche die Bedeutung und kontextuelle Äquivalenz entsprechender Felder, berücksichtige alternative gültige Ausdrücke, Synonyme und angemessene Sprachvarianten und achte dabei auf hohe Standards hinsichtlich Genauigkeit und Vollständigkeit. Begründe deine Punktzahl, indem du kurz und prägnant die Gründe für die Punktzahl nennst.

Expected Output: {{ExpectedOutput}}

ActualOutput: {{ActualOutput}}

Anzahl der Bewertungen

Der Agent Score betrachtet mehr als 30 Bewertungen als guten Messwert.

Nehmen Sie für einfache Agents ungefähr 30 Evaluierungen in 1 bis 3 Evaluierungssätzen vor.Für komplexere Agenten empfehlen wir Ihnen, mindestens die doppelt Anzahl durchzuführen.

Die Anzahl der Bewertungen hängt ab von:

Komplexität des Agents
- Anzahl der Eingabeparameter
- Komplexität der Ausgabestruktur
- Nutzungsmuster von Tools
- Entscheidungsbäume
Eingabe
- Spektrum möglicher Eingaben: Datentypen, Wertebereiche, optionale Felder
- Randfälle
Nutzungsmuster
- Häufige Anwendungsfälle
- Verschiedene Nutzerprofile
- Fehlerszenarien

Auswertungssätze

Durch die Gruppierung in Sätzen lassen sich Bewertungen besser organisieren. Diese können zum Beispiel wie folgt aussehen:

Ein Satz für die vollständige Bewertung der Ausgabe
Ein weiteres Beispiel für Randfälle
Ein weiteres zur Korrektur von Rechtschreibfehlern.

Grundsätze der Abdeckung

Logische Abdeckung: Erstellt eine Übersicht über Eingabekombinationen, Randfälle und Randbedingungen.
Redundanzmanagement: Ziel ist es, für jeden logisch äquivalenten Fall 3 bis 5 verschiedene Bewertungen durchzuführen.
Qualität vor Quantität: Mehr Bewertungen führen nicht zwangsläufig zu besseren Ergebnissen. Fokus auf sinnvolle Tests.

Der richtige Zeitpunkt für Erstellung von Bewertungen

Erstellen Sie Evaluierungen, sobald die Argumente stabil oder vollständig sind. Dies bedeutet auch, dass Ihr Einsatzbereich festgelegt wurde und der Prompt, die Tools sowie Indizes für die Kontextgrundlage finalisiert sind. Wenn Sie die Argumente ändern, müssen Sie Ihre Evaluierungen entsprechend anpassen. Um zusätzlichen Arbeitsaufwand zu minimieren, ist es am besten, mit stabilen Agents zu beginnen, die auf gut definierte Einsatzbereiche zugeschnitten sind.Sie können Evaluierungssätze zwischen Agents innerhalb derselben Organisation oder zwischen verschiedenen Organisationen exportieren und importieren.Sofern das Design Ihres Agent steht, können Sie Evaluierungen nach Bedarf verschieben, ohne sie von Grund auf neu erstellen zu müssen.