UiPath CLI – UIP-Agent-Auswertung

uipath-cli

latest

false

UiPath-CLI-Benutzerhandbuch

Wichtig :

Dieser Inhalt wurde maschinell übersetzt. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

UIP-Agent-Auswertung

Syntax und Optionen für „uip agent eval“, das Auswerter, Auswertungssätze, Testfälle verwaltet und für die Agent-Runtime ausgeführt wird.

uip agent eval ist die Auswertungsbefehlsgruppe. Es verwaltet Auswerter, Auswertungssätze und Testfälle auf der Festplatte und führt Auswertungsausführungen für den Agent Runtime-Dienst aus. Darunter befinden sich vier Unterbefehlsstrukturen:

uip agent eval evaluator … – Auswerter verwalten (evals/evaluators/*.json).
uip agent eval set … – Verwalten Sie Auswertungssätze (evals/eval-sets/*.json).
uip agent eval add | list | remove – Verwalten Sie Testfälle (Evaluierungen) innerhalb eines Evaluierungssatzes.
uip agent eval run … – Starten, Überwachen, Auflisten und Vergleichen von Bewertungsläufen mit dem Runtime-Dienst des Agents.

Alles außer uip agent eval run * ist nur lokal. Die run -Unterbefehle erfordern eine aktive CLI-Sitzung (uip login) und dass der Agent bereits an Studio Web gepusht wurde (über uip agent push) oder dass Sie --solution-id explizit übergeben.

Alle uip agent eval -Unterbefehle berücksichtigen die globalen Optionen (--output, --output-filter, --log-level, --log-file). Austrittscodes folgen dem Standardvertrag.

Zusammenfassung

uip agent eval evaluator add    <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list                                                                                 [--path <dir>]
uip agent eval evaluator remove <id>                                                                           [--path <dir>]

uip agent eval set add    <name>  [--evaluators <ids>]                                                         [--path <dir>]
uip agent eval set list                                                                                         [--path <dir>]
uip agent eval set remove <id>                                                                                  [--path <dir>]

uip agent eval add    <name> --set <name> --inputs <json>
                              [--expected <json>] [--expected-agent-behavior <text>]
                              [--simulation-instructions <text>]
                              [--simulate-input] [--simulate-tools]
                              [--input-generation-instructions <text>]
                              [--path <dir>]
uip agent eval list   --set <name>                                                                              [--path <dir>]
uip agent eval remove <id> --set <name>                                                                         [--path <dir>]

uip agent eval run start   --set <name> [--solution-id <id>] [--wait] [--timeout <s>]                           [--path <dir>]
uip agent eval run status  <evalSetRunId> --set <name>                                                          [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list    --set <name>                                                                         [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name>                                        [--path <dir>]
uip agent eval evaluator add    <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list                                                                                 [--path <dir>]
uip agent eval evaluator remove <id>                                                                           [--path <dir>]

uip agent eval set add    <name>  [--evaluators <ids>]                                                         [--path <dir>]
uip agent eval set list                                                                                         [--path <dir>]
uip agent eval set remove <id>                                                                                  [--path <dir>]

uip agent eval add    <name> --set <name> --inputs <json>
                              [--expected <json>] [--expected-agent-behavior <text>]
                              [--simulation-instructions <text>]
                              [--simulate-input] [--simulate-tools]
                              [--input-generation-instructions <text>]
                              [--path <dir>]
uip agent eval list   --set <name>                                                                              [--path <dir>]
uip agent eval remove <id> --set <name>                                                                         [--path <dir>]

uip agent eval run start   --set <name> [--solution-id <id>] [--wait] [--timeout <s>]                           [--path <dir>]
uip agent eval run status  <evalSetRunId> --set <name>                                                          [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list    --set <name>                                                                         [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name>                                        [--path <dir>]

UIP-Agent-Auswertung

Verwalten Sie Evaluierer – die Evaluierer, die die Ausgabe eines Agents bewerten.

eval-Auswerter hinzufügen

Argumente

<name> (erforderlich) – Name des Auswerters. Wird als Standarddateiname verwendet.

Optionen

Markieren	Standard	Erforderlich	Zweck
`--type <type>`	–	ja	Auswertertyp. Bekannte Werte sind `SemanticSimilarity`, `Trajectory` und `LLM-as-judge`; Führen Sie `uip agent eval evaluator add --help` für die vollständige Liste aus, die von Ihrer Installation unterstützt wird.
`--description <desc>`	–		Freitextbeschreibung.
`--prompt <prompt>`	–		Benutzerdefinierter Auswertungsprompt (für Prompt-basierte Auswerter).
`--target-key <key>`	–		Zielausgabeschlüssel, für den ausgewertet werden soll.
`--path <path>`	`.`		Pfad zum Agent-Projektverzeichnis.

Beispiel

uip agent eval evaluator add content-check \
  --type SemanticSimilarity \
  --path ./my-agent
uip agent eval evaluator add content-check \
  --type SemanticSimilarity \
  --path ./my-agent

Datenform (`--output json`)

{
  "Code": "AgentEvaluatorAdd",
  "Data": {
    "Status": "Evaluator added",
    "Name": "content-check",
    "Type": "SemanticSimilarity",
    "Id": "a1b2c3d4-0000-0000-0000-000000000130",
    "File": "content-check.json"
  }
}
{
  "Code": "AgentEvaluatorAdd",
  "Data": {
    "Status": "Evaluator added",
    "Name": "content-check",
    "Type": "SemanticSimilarity",
    "Id": "a1b2c3d4-0000-0000-0000-000000000130",
    "File": "content-check.json"
  }
}

eval-Auswerterliste

Optionen

--path <path> (Standard: .)

Datenform

{
  "Code": "AgentEvaluatorList",
  "Data": [
    { "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
  ]
}
{
  "Code": "AgentEvaluatorList",
  "Data": [
    { "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
  ]
}

Leere Projekte geben Data: { "Message": "No evaluators configured" } zurück.

Evaluierungsauswerter entfernen

Argumente

<id> – Auswerter-ID oder -Name.

Optionen

--path <path> (Standard: .)

Datenform

{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }
{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }

UIP-Agent-Auswertungssatz

Auswertungssätze verwalten – benannte Sammlungen von Testfällen sowie die Auswerter, die sie bewerten sollen.

Evaluierungssatz hinzufügen

Argumente

<name> – Name des Auswertungssatzes.

Optionen

Markieren	Standard	Zweck
`--evaluators <ids>`	alle Auswerter im Projekt	Durch Kommas getrennte Auswerter-IDs.
`--path <path>`	`.`	Pfad zum Agent-Projektverzeichnis.

Beispiel

uip agent eval set add smoke-tests \
  --evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
  --path ./my-agent
uip agent eval set add smoke-tests \
  --evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
  --path ./my-agent

Datenform

{
  "Code": "AgentEvalSetAdd",
  "Data": {
    "Status": "Evaluation set created",
    "Name": "smoke-tests",
    "Id": "a1b2c3d4-0000-0000-0000-000000000110",
    "Evaluators": 2
  }
}
{
  "Code": "AgentEvalSetAdd",
  "Data": {
    "Status": "Evaluation set created",
    "Name": "smoke-tests",
    "Id": "a1b2c3d4-0000-0000-0000-000000000110",
    "Evaluators": 2
  }
}

Evaluierungssatzliste

Optionen

--path <path> (Standard: .)

Datenform

{
  "Code": "AgentEvalSetList",
  "Data": [
    { "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
  ]
}
{
  "Code": "AgentEvalSetList",
  "Data": [
    { "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
  ]
}

Evaluierungssatz entfernen

Argumente

<id> – eval-set-ID oder -Name.

Optionen

--path <path> (Standard: .)

UIP-Agent eval add | Liste | Entfernen (Testfälle)

Verwalten Sie die Testfälle (Evaluierungen) innerhalb eines Satzes. Diese Unterbefehle befinden sich direkt unter eval, nicht unter eval set.

eval-Add

Argumente

<name> – Testfallname.

Optionen

Markieren	Standard	Erforderlich	Zweck
`--set <name>`	–	ja	Name oder ID des Auswertungssatzes.
`--inputs <json>`	–	ja	Geben Sie Werte als JSON-Zeichenfolge ein. Geparst; eine ungültige JSON schlägt schnell fehl.
`--expected <json>`	–		Erwartete Ausgabe als JSON.
`--expected-agent-behavior <text>`	–		Erwartete Verhaltensbeschreibung für Verlaufsauswerter (z. B. `"Must call Web Search tool"`).
`--simulation-instructions <text>`	–		Anweisungen zur Simulation des Agent-Verhaltens während der Auswertung.
`--simulate-input`	aus		Aktivieren Sie die Eingabesimulation für diesen Testfall.
`--simulate-tools`	aus		Aktivieren Sie die Tool-Simulation für diesen Testfall.
`--input-generation-instructions <text>`	–		Anweisungen zum synthetisieren von Eingaben.
`--path <path>`	`.`		Pfad zum Agent-Projektverzeichnis.

Beispiel

uip agent eval add simple-greeting \
  --set default \
  --inputs '{"input":"hello"}' \
  --expected '{"content":"world"}' \
  --path ./my-agent
uip agent eval add simple-greeting \
  --set default \
  --inputs '{"input":"hello"}' \
  --expected '{"content":"world"}' \
  --path ./my-agent

Datenform

{
  "Code": "AgentEvalAdd",
  "Data": {
    "Status": "Evaluation added",
    "Name": "simple-greeting",
    "Id": "a1b2c3d4-0000-0000-0000-000000000120",
    "Set": "default"
  }
}
{
  "Code": "AgentEvalAdd",
  "Data": {
    "Status": "Evaluation added",
    "Name": "simple-greeting",
    "Id": "a1b2c3d4-0000-0000-0000-000000000120",
    "Set": "default"
  }
}

evaluierungsliste

Optionen

--set <name> (Erforderlich)
--path <path> (Standard: .)

Datenform

{
  "Code": "AgentEvalList",
  "Data": [
    {
      "Name": "simple-greeting",
      "Id": "…",
      "Inputs": "{\"input\":\"hello\"}",
      "Expected": "{\"content\":\"world\"}",
      "ExpectedBehavior": "-"
    }
  ]
}
{
  "Code": "AgentEvalList",
  "Data": [
    {
      "Name": "simple-greeting",
      "Id": "…",
      "Inputs": "{\"input\":\"hello\"}",
      "Expected": "{\"content\":\"world\"}",
      "ExpectedBehavior": "-"
    }
  ]
}

Evaluierung entfernen

Argumente

<id> – Auswertungs-ID oder -Name.

Optionen

--set <name> (Erforderlich)
--path <path> (Standard: .)

Ausführung der UIP-Agent-Auswertung

Ausführen, Überwachen und Vergleichen von Auswertungsläufen über den Agent Runtime-Dienst (EvalsTenantExecutionApi). Erfordert uip login.

Start der Evaluierungsausführung

Starten Sie eine Auswertungsausführung. Der Agent muss sich bereits in Studio Web befinden (uip agent push) – entweder --solution-id explizit übergeben oder auf SolutionStorage.json angewiesen sein, was push automatisch schreibt.

Optionen

Markieren	Standard	Erforderlich	Zweck
`--set <name>`	–	ja	Name oder ID des Auswertungssatzes.
`--solution-id <id>`	Von `SolutionStorage.json`		ID der Cloud-Lösung. Wenn keine Angabe erfolgt, liest der Befehl `SolutionStorage.json` aus dem Projekt; wenn keines von beiden verfügbar ist, tritt ein Fehler auf.
`--path <path>`	`.`		Pfad zum Agent-Projektverzeichnis.
`--wait`	aus		Abfragen, bis die Ausführung abgeschlossen ist, und dann Zusammenfassungszeilen pro Testfall ausgeben.
`--timeout <seconds>`	`600`		Maximale Sekunden für eine Abfrage, wenn `--wait` festgelegt ist.

Beispiel

uip agent eval run start --set default --path ./my-agent --wait
uip agent eval run start --set default --path ./my-agent --wait

Datenform – Anstart (`Code: "AgentEvalRunStarted"`):

{
  "Code": "AgentEvalRunStarted",
  "Data": {
    "EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
    "EvalSetName": "default",
    "TestCases": 5,
    "Evaluators": 2
  }
}
{
  "Code": "AgentEvalRunStarted",
  "Data": {
    "EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
    "EvalSetName": "default",
    "TestCases": 5,
    "Evaluators": 2
  }
}

Mit --wait folgen nach der Abfrage zwei zusätzliche Nutzlasten:

Code: "AgentEvalRunCompleted" – Zusammenfassung (Status, Score, Duration, EvaluatorScores, TestCases).
Code: "AgentEvalRunResults" – Zeilen pro Testfall (dieselbe Form wie eval run results).

Status der Evaluierungsausführung

Rufen Sie den Status einer laufenden oder abgeschlossenen Ausführung ab.

Argumente

<evalSetRunId> – Ausführungs-ID von eval run start.

Optionen

--set <name> (Erforderlich)
--path <path> (Standard: .)

Datenform

{
  "Code": "AgentEvalRunStatus",
  "Data": {
    "EvalSetRunId": "…",
    "Status": "completed",
    "Score": 0.86,
    "Duration": "42.5s",
    "EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
  }
}
{
  "Code": "AgentEvalRunStatus",
  "Data": {
    "EvalSetRunId": "…",
    "Status": "completed",
    "Score": 0.86,
    "Duration": "42.5s",
    "EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
  }
}

Ergebnisse der Evaluierungsausführung

Rufen Sie Ergebnisse pro Testfall ab.

Argumente

<evalSetRunId>.

Optionen

Markieren	Standard	Erforderlich	Zweck
`--set <name>`	–	ja	Name oder ID des Auswertungssatzes.
`--path <path>`	`.`		Pfad zum Agent-Projektverzeichnis.
`--only-failed`	aus		Nur fehlgeschlagene oder fehlerhafte Testfälle anzeigen.
`--verbose`	aus		Rechtfertigungen der Auswerter in die Ausgabe einschließen.
`--export-format <json\|csv>`	–		Schreiben Sie die formatierten Zeilen in `eval-results-<timestamp>.(json\|csv)` , anstatt sie zu drucken.

Beispiel

uip agent eval run results <evalSetRunId> --set default --verbose --only-failed
uip agent eval run results <evalSetRunId> --set default --verbose --only-failed

Datenform (inline – kein Export):

{
  "Code": "AgentEvalRunResults",
  "Data": [
    {
      "TestCase": "simple-greeting",
      "Status": "completed",
      "Score": 1,
      "EvaluatorScores": "semantic: 0.95",
      "Tokens": 320,
      "Duration": "1.8s",
      "Error": "-"
    }
  ]
}
{
  "Code": "AgentEvalRunResults",
  "Data": [
    {
      "TestCase": "simple-greeting",
      "Status": "completed",
      "Score": 1,
      "EvaluatorScores": "semantic: 0.95",
      "Tokens": 320,
      "Duration": "1.8s",
      "Error": "-"
    }
  ]
}

Wenn --export-format festgelegt ist, wird die Nutzlast zu Code: "AgentEvalRunExported" mit Format, File und Records.

evaluierungsausführungsliste

Listen Sie alle Ausführungen für einen bestimmten Auswertungssatz auf.

Optionen

--set <name> (Erforderlich)
--path <path> (Standard: .)

Datenform

{
  "Code": "AgentEvalRunList",
  "Data": [
    {
      "EvalSetRunId": "…",
      "Status": "completed",
      "Score": 0.86,
      "TestCases": 5,
      "Duration": "42.5s",
      "EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
      "CreatedAt": "2025-04-15T10:30:00Z"
    }
  ]
}
{
  "Code": "AgentEvalRunList",
  "Data": [
    {
      "EvalSetRunId": "…",
      "Status": "completed",
      "Score": 0.86,
      "TestCases": 5,
      "Duration": "42.5s",
      "EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
      "CreatedAt": "2025-04-15T10:30:00Z"
    }
  ]
}

Evaluierungsausführungsvergleich

Vergleichen Sie zwei Ausführungen nebeneinander. Nützlich für A/B-Testaufforderung oder Modelländerungen.

Argumente

<evalSetRunId> – ID der ersten (Basis-)Ausführung.

Optionen

Markieren	Standard	Erforderlich	Zweck
`--compare-to <id>`	–	ja	ID der zweiten Ausführung, mit der verglichen werden soll.
`--set <name>`	–	ja	Name oder ID des Auswertungssatzes.
`--path <path>`	`.`		Pfad zum Agent-Projektverzeichnis.

Datenform (`Code: "AgentEvalRunComparison"`)

{
  "Code": "AgentEvalRunComparison",
  "Data": {
    "RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
    "RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
    "ScoreDelta": 0.06,
    "TestCases": [
      { "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
    ]
  }
}
{
  "Code": "AgentEvalRunComparison",
  "Data": {
    "RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
    "RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
    "ScoreDelta": 0.06,
    "TestCases": [
      { "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
    ]
  }
}

uip agent push – muss vor eval run start ausgeführt werden (es sei denn, --solution-id wird angegeben).
uip agent validate – Der Standardauswertungssatz und die Evaluierer werden von init erstellt; validate hält sie konsistent.
uip agent run – Führen Sie den Agent als Orchestrator-Auftrag aus; sich von einer Agent Runtime-Bewertungsausführung unterscheidet.

Siehe auch

Authentifizierung – Sitzungen und Tokenvalidität für die eval run -Unterbefehle.
Globale Optionen, Exitcodes.

War diese Seite hilfreich?

Vorherige (previous)Eskalationsverwaltung

WeiterUIP-API-Workflow

Zusammenfassung​

UIP-Agent-Auswertung​

eval-Auswerter hinzufügen​

Argumente​

Optionen​

Beispiel​

Datenform (--output json)​

eval-Auswerterliste​

Optionen​

Datenform​

Evaluierungsauswerter entfernen​

Argumente​

Optionen​

Datenform​

UIP-Agent-Auswertungssatz​

Evaluierungssatz hinzufügen​

Argumente​

Optionen​

Beispiel​

Datenform​

Evaluierungssatzliste​

Optionen​

Datenform​

Evaluierungssatz entfernen​

Argumente​

Optionen​

UIP-Agent eval add | Liste | Entfernen (Testfälle)​

eval-Add​

Argumente​

Optionen​

Beispiel​

Datenform​

evaluierungsliste​

Optionen​

Datenform​

Evaluierung entfernen​

Argumente​

Optionen​

Ausführung der UIP-Agent-Auswertung​

Start der Evaluierungsausführung​

Optionen​

Beispiel​

Datenform – Anstart (Code: "AgentEvalRunStarted"):​

Status der Evaluierungsausführung​

Argumente​

Optionen​

Datenform​

Ergebnisse der Evaluierungsausführung​

Argumente​

Optionen​

Beispiel​

Datenform (inline – kein Export):​

evaluierungsausführungsliste​

Optionen​

Datenform​

Evaluierungsausführungsvergleich​

Argumente​

Optionen​

Datenform (Code: "AgentEvalRunComparison")​

Zugehörig​

Siehe auch​

War diese Seite hilfreich?

Zusammenfassung

UIP-Agent-Auswertung

eval-Auswerter hinzufügen

Argumente

Optionen

Beispiel

Datenform (`--output json`)

eval-Auswerterliste

Optionen

Datenform

Evaluierungsauswerter entfernen

Argumente

Optionen

Datenform

UIP-Agent-Auswertungssatz

Evaluierungssatz hinzufügen

Argumente

Optionen

Beispiel

Datenform

Evaluierungssatzliste

Optionen

Datenform

Evaluierungssatz entfernen

Argumente

Optionen

UIP-Agent eval add | Liste | Entfernen (Testfälle)

eval-Add

Argumente

Optionen

Beispiel

Datenform

evaluierungsliste

Optionen

Datenform

Evaluierung entfernen

Argumente

Optionen

Ausführung der UIP-Agent-Auswertung

Start der Evaluierungsausführung

Optionen

Beispiel

Datenform – Anstart (`Code: "AgentEvalRunStarted"`):

Status der Evaluierungsausführung

Argumente

Optionen

Datenform

Ergebnisse der Evaluierungsausführung

Argumente

Optionen

Beispiel

Datenform (inline – kein Export):

evaluierungsausführungsliste

Optionen

Datenform

Evaluierungsausführungsvergleich

Argumente

Optionen

Datenform (`Code: "AgentEvalRunComparison"`)

Zugehörig

Siehe auch