UiPath CLI - uip エージェントの評価

uipath-cli

latest

false

UiPath CLI ユーザーガイド

重要 :

このコンテンツは機械翻訳によって処理されています。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

UIP エージェントの評価

「uip agent eval」の構文とオプション - 評価器、評価セット、テストケースを管理し、エージェントランタイムに対する実行を管理します。

uip agent eval 評価コマンドグループです。ディスク上の評価器、評価セット、テストケースを管理し、Agent Runtime サービスに対して評価を実行します。4つのサブコマンドツリーが下にあります。

uip agent eval evaluator … — 評価器 (evals/evaluators/*.json) を管理します。
uip agent eval set … — 評価セット (evals/eval-sets/*.jsonの管理)
uip agent eval add | list | remove — 評価セット内のテストケース (評価) を管理します。
uip agent eval run … — エージェントランタイムサービスに対する評価の実行を開始、監視、リスト表示、比較します。

uip agent eval run *を除くすべてはローカル専用です。runサブコマンドを使用するには、アクティブな CLI セッション (uip login) が必要であり、エージェントが (uip agent push経由で) 既に Studio Web にプッシュされているか、明示的に--solution-id渡されている必要があります。

uip agent evalすべてのサブコマンドは、グローバルオプション (--output、 --output-filter、 --log-level、 --log-file) を優先します。終了コードは標準コントラクトに従います。

概要

uip agent eval evaluator add    <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list                                                                                 [--path <dir>]
uip agent eval evaluator remove <id>                                                                           [--path <dir>]

uip agent eval set add    <name>  [--evaluators <ids>]                                                         [--path <dir>]
uip agent eval set list                                                                                         [--path <dir>]
uip agent eval set remove <id>                                                                                  [--path <dir>]

uip agent eval add    <name> --set <name> --inputs <json>
                              [--expected <json>] [--expected-agent-behavior <text>]
                              [--simulation-instructions <text>]
                              [--simulate-input] [--simulate-tools]
                              [--input-generation-instructions <text>]
                              [--path <dir>]
uip agent eval list   --set <name>                                                                              [--path <dir>]
uip agent eval remove <id> --set <name>                                                                         [--path <dir>]

uip agent eval run start   --set <name> [--solution-id <id>] [--wait] [--timeout <s>]                           [--path <dir>]
uip agent eval run status  <evalSetRunId> --set <name>                                                          [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list    --set <name>                                                                         [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name>                                        [--path <dir>]
uip agent eval evaluator add    <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list                                                                                 [--path <dir>]
uip agent eval evaluator remove <id>                                                                           [--path <dir>]

uip agent eval set add    <name>  [--evaluators <ids>]                                                         [--path <dir>]
uip agent eval set list                                                                                         [--path <dir>]
uip agent eval set remove <id>                                                                                  [--path <dir>]

uip agent eval add    <name> --set <name> --inputs <json>
                              [--expected <json>] [--expected-agent-behavior <text>]
                              [--simulation-instructions <text>]
                              [--simulate-input] [--simulate-tools]
                              [--input-generation-instructions <text>]
                              [--path <dir>]
uip agent eval list   --set <name>                                                                              [--path <dir>]
uip agent eval remove <id> --set <name>                                                                         [--path <dir>]

uip agent eval run start   --set <name> [--solution-id <id>] [--wait] [--timeout <s>]                           [--path <dir>]
uip agent eval run status  <evalSetRunId> --set <name>                                                          [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list    --set <name>                                                                         [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name>                                        [--path <dir>]

UIP エージェントの評価器

評価器の管理 — エージェントの出力を採点する採点者。

評価器を追加する

引数

<name> (必須) — 評価器名。既定のファイル名として使用されます。

オプション

フラグ	既定 (Default)	Required	目的
`--type <type>`	—	○	評価器の種類。既知の値には、 `SemanticSimilarity`、 `Trajectory`、および `LLM-as-judge`があります。お使いのインストールでサポートされている完全なリストについては、 `uip agent eval evaluator add --help` をご覧ください。
`--description <desc>`	—		フリーテキストの説明。
`--prompt <prompt>`	—		カスタム評価プロンプト (プロンプトベースの評価器の場合)
`--target-key <key>`	—		評価対象の出力キーです。
`--path <path>`	`.`		エージェントプロジェクトディレクトリへのパスです。

例

uip agent eval evaluator add content-check \
  --type SemanticSimilarity \
  --path ./my-agent
uip agent eval evaluator add content-check \
  --type SemanticSimilarity \
  --path ./my-agent

データシェイプ (`--output json`)

{
  "Code": "AgentEvaluatorAdd",
  "Data": {
    "Status": "Evaluator added",
    "Name": "content-check",
    "Type": "SemanticSimilarity",
    "Id": "a1b2c3d4-0000-0000-0000-000000000130",
    "File": "content-check.json"
  }
}
{
  "Code": "AgentEvaluatorAdd",
  "Data": {
    "Status": "Evaluator added",
    "Name": "content-check",
    "Type": "SemanticSimilarity",
    "Id": "a1b2c3d4-0000-0000-0000-000000000130",
    "File": "content-check.json"
  }
}

評価器のリスト

オプション

--path <path> (既定 .)

データシェイプ

{
  "Code": "AgentEvaluatorList",
  "Data": [
    { "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
  ]
}
{
  "Code": "AgentEvaluatorList",
  "Data": [
    { "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
  ]
}

空のプロジェクトは [ Data: { "Message": "No evaluators configured" }を返します。

評価器を評価削除する

引数

<id> — 評価器の ID または名前。

オプション

--path <path> (既定 .)

データシェイプ

{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }
{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }

UIP エージェント評価セット

評価セットを管理する — テストケースと、テストケースをスコアリングする評価器の名前付きのコレクションです。

eval set add

引数

<name> — 評価セット名

オプション

フラグ	既定 (Default)	目的
`--evaluators <ids>`	プロジェクトのすべての評価者	含めるコンマ区切りのエバリュエーター ID。
`--path <path>`	`.`	エージェントプロジェクトディレクトリへのパスです。

例

uip agent eval set add smoke-tests \
  --evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
  --path ./my-agent
uip agent eval set add smoke-tests \
  --evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
  --path ./my-agent

データシェイプ

{
  "Code": "AgentEvalSetAdd",
  "Data": {
    "Status": "Evaluation set created",
    "Name": "smoke-tests",
    "Id": "a1b2c3d4-0000-0000-0000-000000000110",
    "Evaluators": 2
  }
}
{
  "Code": "AgentEvalSetAdd",
  "Data": {
    "Status": "Evaluation set created",
    "Name": "smoke-tests",
    "Id": "a1b2c3d4-0000-0000-0000-000000000110",
    "Evaluators": 2
  }
}

評価セット一覧

オプション

--path <path> (既定 .)

データシェイプ

{
  "Code": "AgentEvalSetList",
  "Data": [
    { "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
  ]
}
{
  "Code": "AgentEvalSetList",
  "Data": [
    { "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
  ]
}

評価セットの削除

引数

<id> — 評価セットの ID または名前。

オプション

--path <path> (既定 .)

UIP エージェントの評価版追加 |一覧 |削除 (テストケース)

セット内のテストケース (評価) を管理します。これらのサブコマンドは、eval setではなく、evalの直下にあります。

eval add

引数

<name> — テストケース名。

オプション

フラグ	既定 (Default)	Required	目的
`--set <name>`	—	○	評価セットの名前または ID。
`--inputs <json>`	—	○	値を JSON 文字列として入力します。解析;無効な JSON はすぐに失敗します。
`--expected <json>`	—		JSON としての出力が期待されます。
`--expected-agent-behavior <text>`	—		軌跡評価器に期待される挙動の説明( `"Must call Web Search tool"`など)。
`--simulation-instructions <text>`	—		評価中にエージェントの動作をシミュレートするための手順。
`--simulate-input`	無効		このテストケースの入力シミュレーションを有効化します。
`--simulate-tools`	無効		このテストケースのツールシミュレーションを有効にします。
`--input-generation-instructions <text>`	—		入力を合成するための指示。
`--path <path>`	`.`		エージェントプロジェクトディレクトリへのパスです。

例

uip agent eval add simple-greeting \
  --set default \
  --inputs '{"input":"hello"}' \
  --expected '{"content":"world"}' \
  --path ./my-agent
uip agent eval add simple-greeting \
  --set default \
  --inputs '{"input":"hello"}' \
  --expected '{"content":"world"}' \
  --path ./my-agent

データシェイプ

{
  "Code": "AgentEvalAdd",
  "Data": {
    "Status": "Evaluation added",
    "Name": "simple-greeting",
    "Id": "a1b2c3d4-0000-0000-0000-000000000120",
    "Set": "default"
  }
}
{
  "Code": "AgentEvalAdd",
  "Data": {
    "Status": "Evaluation added",
    "Name": "simple-greeting",
    "Id": "a1b2c3d4-0000-0000-0000-000000000120",
    "Set": "default"
  }
}

評価リスト

オプション

--set <name> (必須)
--path <path> (既定 .)

データシェイプ

{
  "Code": "AgentEvalList",
  "Data": [
    {
      "Name": "simple-greeting",
      "Id": "…",
      "Inputs": "{\"input\":\"hello\"}",
      "Expected": "{\"content\":\"world\"}",
      "ExpectedBehavior": "-"
    }
  ]
}
{
  "Code": "AgentEvalList",
  "Data": [
    {
      "Name": "simple-greeting",
      "Id": "…",
      "Inputs": "{\"input\":\"hello\"}",
      "Expected": "{\"content\":\"world\"}",
      "ExpectedBehavior": "-"
    }
  ]
}

eval remove

引数

<id> — 評価 ID または名前

オプション

--set <name> (必須)
--path <path> (既定 .)

uip エージェントの評価実行

Agent Runtime サービス (EvalsTenantExecutionApi) を使用して、評価の実行を実行、監視、比較します。uip loginが必要です。

eval run start

評価の実行を開始します。エージェントはすでに Studio Web (uip agent push) に存在する必要があります。 --solution-id 明示的に渡すか、 SolutionStorage.jsonに依存しています。このは自動的に書き込み push 。

オプション

フラグ	既定 (Default)	Required	目的
`--set <name>`	—	○	評価セットの名前または ID。
`--solution-id <id>`	時刻: `SolutionStorage.json`		クラウドソリューション ID。省略すると、コマンドはプロジェクトから `SolutionStorage.json` を読み取ります。どちらも利用できない場合はエラーになります。
`--path <path>`	`.`		エージェントプロジェクトディレクトリへのパスです。
`--wait`	無効		実行が完了するまでポーリングし、summary + per-test-case 行を出力します。
`--timeout <seconds>`	`600`		`--wait`が設定されている場合にポーリングする最大秒数。

例

uip agent eval run start --set default --path ./my-agent --wait
uip agent eval run start --set default --path ./my-agent --wait

データ形状 — キックオフ (`Code: "AgentEvalRunStarted"`):

{
  "Code": "AgentEvalRunStarted",
  "Data": {
    "EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
    "EvalSetName": "default",
    "TestCases": 5,
    "Evaluators": 2
  }
}
{
  "Code": "AgentEvalRunStarted",
  "Data": {
    "EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
    "EvalSetName": "default",
    "TestCases": 5,
    "Evaluators": 2
  }
}

--waitでは、ポーリング後に 2 つの追加のペイロードが続きます。

Code: "AgentEvalRunCompleted" — 概要 (Status, Score, Duration, EvaluatorScores, TestCases).
Code: "AgentEvalRunResults" — テストケースごとの行 ( eval run resultsと同じ形状)。

評価の実行ステータス

実行中または完了した実行のステータスをポーリングします。

引数

<evalSetRunId> — eval run startから ID を実行します。

オプション

--set <name> (必須)
--path <path> (既定 .)

データシェイプ

{
  "Code": "AgentEvalRunStatus",
  "Data": {
    "EvalSetRunId": "…",
    "Status": "completed",
    "Score": 0.86,
    "Duration": "42.5s",
    "EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
  }
}
{
  "Code": "AgentEvalRunStatus",
  "Data": {
    "EvalSetRunId": "…",
    "Status": "completed",
    "Score": 0.86,
    "Duration": "42.5s",
    "EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
  }
}

評価の実行結果

テストケースごとの結果を取得する。

引数

<evalSetRunId> です。

オプション

フラグ	既定 (Default)	Required	目的
`--set <name>`	—	○	評価セットの名前または ID。
`--path <path>`	`.`		エージェントプロジェクトディレクトリへのパスです。
`--only-failed`	無効		失敗またはエラーが発生したテストケースのみを表示します。
`--verbose`	無効		出力に評価器の妥当性を含めます。
`--export-format <json\|csv>`	—		書式設定された行は、印刷するのではなく、 `eval-results-<timestamp>.(json\|csv)` に書き込みます。

例

uip agent eval run results <evalSetRunId> --set default --verbose --only-failed
uip agent eval run results <evalSetRunId> --set default --verbose --only-failed

データ形状 (インライン — エクスポートなし):

{
  "Code": "AgentEvalRunResults",
  "Data": [
    {
      "TestCase": "simple-greeting",
      "Status": "completed",
      "Score": 1,
      "EvaluatorScores": "semantic: 0.95",
      "Tokens": 320,
      "Duration": "1.8s",
      "Error": "-"
    }
  ]
}
{
  "Code": "AgentEvalRunResults",
  "Data": [
    {
      "TestCase": "simple-greeting",
      "Status": "completed",
      "Score": 1,
      "EvaluatorScores": "semantic: 0.95",
      "Tokens": 320,
      "Duration": "1.8s",
      "Error": "-"
    }
  ]
}

--export-formatを設定すると、ペイロードは Format、Fileおよび RecordsとCode: "AgentEvalRunExported"されます。

評価実行リスト

指定した評価セットのすべての実行のリストを取得します。

オプション

--set <name> (必須)
--path <path> (既定 .)

データシェイプ

{
  "Code": "AgentEvalRunList",
  "Data": [
    {
      "EvalSetRunId": "…",
      "Status": "completed",
      "Score": 0.86,
      "TestCases": 5,
      "Duration": "42.5s",
      "EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
      "CreatedAt": "2025-04-15T10:30:00Z"
    }
  ]
}
{
  "Code": "AgentEvalRunList",
  "Data": [
    {
      "EvalSetRunId": "…",
      "Status": "completed",
      "Score": 0.86,
      "TestCases": 5,
      "Duration": "42.5s",
      "EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
      "CreatedAt": "2025-04-15T10:30:00Z"
    }
  ]
}

比較を実行

2 つの実行を並べて比較します。A/B テストのプロンプトやモデルの変更に役立ちます。

引数

<evalSetRunId> — 最初 (ベースライン) 実行 ID。

オプション

フラグ	既定 (Default)	Required	目的
`--compare-to <id>`	—	○	比較対象の 2 回目の実行 ID。
`--set <name>`	—	○	評価セットの名前または ID。
`--path <path>`	`.`		エージェントプロジェクトディレクトリへのパスです。

データシェイプ (`Code: "AgentEvalRunComparison"`)

{
  "Code": "AgentEvalRunComparison",
  "Data": {
    "RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
    "RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
    "ScoreDelta": 0.06,
    "TestCases": [
      { "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
    ]
  }
}
{
  "Code": "AgentEvalRunComparison",
  "Data": {
    "RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
    "RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
    "ScoreDelta": 0.06,
    "TestCases": [
      { "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
    ]
  }
}

uip agent push — eval run startの前に実行する必要があります (--solution-idが指定されていない場合)。
uip agent validate — 既定の評価セットと評価器は initによって作成されます。validateにより、一貫性が保たれます。
uip agent run — エージェントを Orchestrator のジョブとして実行します。エージェントランタイムの評価の実行とは異なります。

参照

認証 — eval run サブコマンドのセッションとトークンの有効性。
グローバルオプション、終了コード。

このページは役に立ちましたか?

前へescalation-manage

次へuip api-workflow

概要​

UIP エージェントの評価器​

評価器を追加する​

引数​

オプション​

例​

データシェイプ (--output json)​

評価器のリスト​

オプション​

データシェイプ​

評価器を評価 削除する​

引数​

オプション​

データシェイプ​

UIP エージェント評価セット​

eval set add​

引数​

オプション​

例​

データシェイプ​

評価セット一覧​

オプション​

データシェイプ​

評価セットの削除​

引数​

オプション​

UIP エージェントの評価版 追加 |一覧 |削除 (テスト ケース)​

eval add​

引数​

オプション​

例​

データシェイプ​

評価リスト​

オプション​

データシェイプ​

eval remove​

引数​

オプション​

uip エージェントの評価実行​

eval run start​

オプション​

例​

データ形状 — キックオフ (Code: "AgentEvalRunStarted"):​

評価の実行ステータス​

引数​

オプション​

データシェイプ​

評価の実行結果​

引数​

オプション​

例​

データ形状 (インライン — エクスポートなし):​

評価実行リスト​

オプション​

データシェイプ​

比較を実行​

引数​

オプション​

データシェイプ (Code: "AgentEvalRunComparison")​

関連​

参照​

このページは役に立ちましたか?

概要

UIP エージェントの評価器

評価器を追加する

引数

オプション

例

データシェイプ (`--output json`)

評価器のリスト

オプション

データシェイプ

評価器を評価削除する

引数

オプション

データシェイプ

UIP エージェント評価セット

eval set add

引数

オプション

例

データシェイプ

評価セット一覧

オプション

データシェイプ

評価セットの削除

引数

オプション

UIP エージェントの評価版追加 |一覧 |削除 (テストケース)

eval add

引数

オプション

例

データシェイプ

評価リスト

オプション

データシェイプ

eval remove

引数

オプション

uip エージェントの評価実行

eval run start

オプション

例

データ形状 — キックオフ (`Code: "AgentEvalRunStarted"`):

評価の実行ステータス

引数

オプション

データシェイプ

評価の実行結果

引数

オプション

例

データ形状 (インライン — エクスポートなし):

評価実行リスト

オプション

データシェイプ

比較を実行

引数

オプション

データシェイプ (`Code: "AgentEvalRunComparison"`)

関連

参照