UiPath Documentation
uipath-cli
latest
false
重要 :
このコンテンツは機械翻訳によって処理されています。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。

UiPath CLI ユーザー ガイド

UIP エージェントの評価

uip agent eval 評価コマンド グループです。ディスク上の評価器、評価セット、テスト ケースを管理し、Agent Runtime サービスに対して評価を実行します。4つのサブコマンドツリーが下にあります。

  • uip agent eval evaluator … — 評価器 (evals/evaluators/*.json) を管理します。
  • uip agent eval set … — 評価セット (evals/eval-sets/*.jsonの管理)
  • uip agent eval add | list | remove — 評価セット内のテスト ケース (評価) を管理します。
  • uip agent eval run … — エージェント ランタイム サービスに対する評価の実行を開始、監視、リスト表示、比較します。

uip agent eval run *を除くすべてはローカル専用です。runサブコマンドを使用するには、アクティブな CLI セッション (uip login) が必要であり、エージェントが (uip agent push経由で) 既に Studio Web にプッシュされているか、明示的に--solution-id渡されている必要があります。

uip agent evalすべてのサブコマンドは、グローバルオプション (--output--output-filter--log-level--log-file) を優先します。終了コードは 標準コントラクトに従います。

概要

uip agent eval evaluator add    <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list                                                                                 [--path <dir>]
uip agent eval evaluator remove <id>                                                                           [--path <dir>]

uip agent eval set add    <name>  [--evaluators <ids>]                                                         [--path <dir>]
uip agent eval set list                                                                                         [--path <dir>]
uip agent eval set remove <id>                                                                                  [--path <dir>]

uip agent eval add    <name> --set <name> --inputs <json>
                              [--expected <json>] [--expected-agent-behavior <text>]
                              [--simulation-instructions <text>]
                              [--simulate-input] [--simulate-tools]
                              [--input-generation-instructions <text>]
                              [--path <dir>]
uip agent eval list   --set <name>                                                                              [--path <dir>]
uip agent eval remove <id> --set <name>                                                                         [--path <dir>]

uip agent eval run start   --set <name> [--solution-id <id>] [--wait] [--timeout <s>]                           [--path <dir>]
uip agent eval run status  <evalSetRunId> --set <name>                                                          [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list    --set <name>                                                                         [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name>                                        [--path <dir>]
uip agent eval evaluator add    <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list                                                                                 [--path <dir>]
uip agent eval evaluator remove <id>                                                                           [--path <dir>]

uip agent eval set add    <name>  [--evaluators <ids>]                                                         [--path <dir>]
uip agent eval set list                                                                                         [--path <dir>]
uip agent eval set remove <id>                                                                                  [--path <dir>]

uip agent eval add    <name> --set <name> --inputs <json>
                              [--expected <json>] [--expected-agent-behavior <text>]
                              [--simulation-instructions <text>]
                              [--simulate-input] [--simulate-tools]
                              [--input-generation-instructions <text>]
                              [--path <dir>]
uip agent eval list   --set <name>                                                                              [--path <dir>]
uip agent eval remove <id> --set <name>                                                                         [--path <dir>]

uip agent eval run start   --set <name> [--solution-id <id>] [--wait] [--timeout <s>]                           [--path <dir>]
uip agent eval run status  <evalSetRunId> --set <name>                                                          [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list    --set <name>                                                                         [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name>                                        [--path <dir>]

UIP エージェントの評価器

評価器の管理 — エージェントの出力を採点する採点者。

評価器を追加する

引数
  • <name> (必須) — 評価器名。既定のファイル名として使用されます。
オプション
フラグ既定 (Default)Required目的
--type <type>評価器の種類。既知の値には、 SemanticSimilarityTrajectory、および LLM-as-judgeがあります。お使いのインストールでサポートされている完全なリストについては、 uip agent eval evaluator add --help をご覧ください。
--description <desc>フリーテキストの説明。
--prompt <prompt>カスタム評価プロンプト (プロンプトベースの評価器の場合)
--target-key <key>評価対象の出力キーです。
--path <path>.エージェント プロジェクト ディレクトリへのパスです。
uip agent eval evaluator add content-check \
  --type SemanticSimilarity \
  --path ./my-agent
uip agent eval evaluator add content-check \
  --type SemanticSimilarity \
  --path ./my-agent
データシェイプ (--output json)
{
  "Code": "AgentEvaluatorAdd",
  "Data": {
    "Status": "Evaluator added",
    "Name": "content-check",
    "Type": "SemanticSimilarity",
    "Id": "a1b2c3d4-0000-0000-0000-000000000130",
    "File": "content-check.json"
  }
}
{
  "Code": "AgentEvaluatorAdd",
  "Data": {
    "Status": "Evaluator added",
    "Name": "content-check",
    "Type": "SemanticSimilarity",
    "Id": "a1b2c3d4-0000-0000-0000-000000000130",
    "File": "content-check.json"
  }
}

評価器のリスト

オプション
  • --path <path> (既定 .)
データシェイプ
{
  "Code": "AgentEvaluatorList",
  "Data": [
    { "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
  ]
}
{
  "Code": "AgentEvaluatorList",
  "Data": [
    { "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
  ]
}

空のプロジェクトは [ Data: { "Message": "No evaluators configured" }を返します。

評価器を評価 削除する

引数
  • <id> — 評価器の ID または名前。
オプション
  • --path <path> (既定 .)
データシェイプ
{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }
{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }

UIP エージェント評価セット

評価セットを管理する — テスト ケースと、テスト ケースをスコアリングする評価器の名前付きのコレクションです。

eval set add

引数
  • <name> — 評価セット名
オプション
フラグ既定 (Default)目的
--evaluators <ids>プロジェクトのすべての評価者含めるコンマ区切りのエバリュエーター ID。
--path <path>.エージェント プロジェクト ディレクトリへのパスです。
uip agent eval set add smoke-tests \
  --evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
  --path ./my-agent
uip agent eval set add smoke-tests \
  --evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
  --path ./my-agent
データシェイプ
{
  "Code": "AgentEvalSetAdd",
  "Data": {
    "Status": "Evaluation set created",
    "Name": "smoke-tests",
    "Id": "a1b2c3d4-0000-0000-0000-000000000110",
    "Evaluators": 2
  }
}
{
  "Code": "AgentEvalSetAdd",
  "Data": {
    "Status": "Evaluation set created",
    "Name": "smoke-tests",
    "Id": "a1b2c3d4-0000-0000-0000-000000000110",
    "Evaluators": 2
  }
}

評価セット一覧

オプション
  • --path <path> (既定 .)
データシェイプ
{
  "Code": "AgentEvalSetList",
  "Data": [
    { "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
  ]
}
{
  "Code": "AgentEvalSetList",
  "Data": [
    { "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
  ]
}

評価セットの削除

引数
  • <id> — 評価セットの ID または名前。
オプション
  • --path <path> (既定 .)

UIP エージェントの評価版 追加 |一覧 |削除 (テスト ケース)

セット内のテスト ケース (評価) を管理します。これらのサブコマンドは、eval setではなく、evalの直下にあります。

eval add

引数
  • <name> — テストケース名。
オプション
フラグ既定 (Default)Required目的
--set <name>評価セットの名前または ID。
--inputs <json>値を JSON 文字列として入力します。解析;無効な JSON はすぐに失敗します。
--expected <json>JSON としての出力が期待されます。
--expected-agent-behavior <text>軌跡評価器に期待される挙動の説明( "Must call Web Search tool"など)。
--simulation-instructions <text>評価中にエージェントの動作をシミュレートするための手順。
--simulate-input無効このテスト ケースの入力シミュレーションを有効化します。
--simulate-tools無効このテスト ケースのツール シミュレーションを有効にします。
--input-generation-instructions <text>入力を合成するための指示。
--path <path>.エージェント プロジェクト ディレクトリへのパスです。
uip agent eval add simple-greeting \
  --set default \
  --inputs '{"input":"hello"}' \
  --expected '{"content":"world"}' \
  --path ./my-agent
uip agent eval add simple-greeting \
  --set default \
  --inputs '{"input":"hello"}' \
  --expected '{"content":"world"}' \
  --path ./my-agent
データシェイプ
{
  "Code": "AgentEvalAdd",
  "Data": {
    "Status": "Evaluation added",
    "Name": "simple-greeting",
    "Id": "a1b2c3d4-0000-0000-0000-000000000120",
    "Set": "default"
  }
}
{
  "Code": "AgentEvalAdd",
  "Data": {
    "Status": "Evaluation added",
    "Name": "simple-greeting",
    "Id": "a1b2c3d4-0000-0000-0000-000000000120",
    "Set": "default"
  }
}

評価リスト

オプション
  • --set <name> (必須)
  • --path <path> (既定 .)
データシェイプ
{
  "Code": "AgentEvalList",
  "Data": [
    {
      "Name": "simple-greeting",
      "Id": "…",
      "Inputs": "{\"input\":\"hello\"}",
      "Expected": "{\"content\":\"world\"}",
      "ExpectedBehavior": "-"
    }
  ]
}
{
  "Code": "AgentEvalList",
  "Data": [
    {
      "Name": "simple-greeting",
      "Id": "…",
      "Inputs": "{\"input\":\"hello\"}",
      "Expected": "{\"content\":\"world\"}",
      "ExpectedBehavior": "-"
    }
  ]
}

eval remove

引数
  • <id> — 評価 ID または名前
オプション
  • --set <name> (必須)
  • --path <path> (既定 .)

uip エージェントの評価実行

Agent Runtime サービス (EvalsTenantExecutionApi) を使用して、評価の実行を実行、監視、比較します。uip loginが必要です。

eval run start

評価の実行を開始します。エージェントはすでに Studio Web (uip agent push) に存在する必要があります。 --solution-id 明示的に渡すか、 SolutionStorage.jsonに依存しています。この は自動的に書き込み push

オプション
フラグ既定 (Default)Required目的
--set <name>評価セットの名前または ID。
--solution-id <id>時刻: SolutionStorage.jsonクラウド ソリューション ID。省略すると、コマンドはプロジェクトから SolutionStorage.json を読み取ります。どちらも利用できない場合はエラーになります。
--path <path>.エージェント プロジェクト ディレクトリへのパスです。
--wait無効実行が完了するまでポーリングし、summary + per-test-case 行を出力します。
--timeout <seconds>600--waitが設定されている場合にポーリングする最大秒数。
uip agent eval run start --set default --path ./my-agent --wait
uip agent eval run start --set default --path ./my-agent --wait
データ形状 — キックオフ (Code: "AgentEvalRunStarted"):
{
  "Code": "AgentEvalRunStarted",
  "Data": {
    "EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
    "EvalSetName": "default",
    "TestCases": 5,
    "Evaluators": 2
  }
}
{
  "Code": "AgentEvalRunStarted",
  "Data": {
    "EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
    "EvalSetName": "default",
    "TestCases": 5,
    "Evaluators": 2
  }
}

--waitでは、ポーリング後に 2 つの追加のペイロードが続きます。

  • Code: "AgentEvalRunCompleted" — 概要 (Status, Score, Duration, EvaluatorScores, TestCases).
  • Code: "AgentEvalRunResults" — テスト ケースごとの行 ( eval run resultsと同じ形状)。

評価の実行ステータス

実行中または完了した実行のステータスをポーリングします。

引数
  • <evalSetRunId>eval run startから ID を実行します。
オプション
  • --set <name> (必須)
  • --path <path> (既定 .)
データシェイプ
{
  "Code": "AgentEvalRunStatus",
  "Data": {
    "EvalSetRunId": "…",
    "Status": "completed",
    "Score": 0.86,
    "Duration": "42.5s",
    "EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
  }
}
{
  "Code": "AgentEvalRunStatus",
  "Data": {
    "EvalSetRunId": "…",
    "Status": "completed",
    "Score": 0.86,
    "Duration": "42.5s",
    "EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
  }
}

評価の実行結果

テスト ケースごとの結果を取得する。

引数
  • <evalSetRunId> です。
オプション
フラグ既定 (Default)Required目的
--set <name>評価セットの名前または ID。
--path <path>.エージェント プロジェクト ディレクトリへのパスです。
--only-failed無効失敗またはエラーが発生したテスト ケースのみを表示します。
--verbose無効出力に評価器の妥当性を含めます。
--export-format <json|csv>書式設定された行は、印刷するのではなく、 eval-results-<timestamp>.(json|csv) に書き込みます。
uip agent eval run results <evalSetRunId> --set default --verbose --only-failed
uip agent eval run results <evalSetRunId> --set default --verbose --only-failed
データ形状 (インライン — エクスポートなし):
{
  "Code": "AgentEvalRunResults",
  "Data": [
    {
      "TestCase": "simple-greeting",
      "Status": "completed",
      "Score": 1,
      "EvaluatorScores": "semantic: 0.95",
      "Tokens": 320,
      "Duration": "1.8s",
      "Error": "-"
    }
  ]
}
{
  "Code": "AgentEvalRunResults",
  "Data": [
    {
      "TestCase": "simple-greeting",
      "Status": "completed",
      "Score": 1,
      "EvaluatorScores": "semantic: 0.95",
      "Tokens": 320,
      "Duration": "1.8s",
      "Error": "-"
    }
  ]
}

--export-formatを設定すると、ペイロードは FormatFileおよび RecordsCode: "AgentEvalRunExported"されます。

評価実行リスト

指定した評価セットのすべての実行のリストを取得します。

オプション
  • --set <name> (必須)
  • --path <path> (既定 .)
データシェイプ
{
  "Code": "AgentEvalRunList",
  "Data": [
    {
      "EvalSetRunId": "…",
      "Status": "completed",
      "Score": 0.86,
      "TestCases": 5,
      "Duration": "42.5s",
      "EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
      "CreatedAt": "2025-04-15T10:30:00Z"
    }
  ]
}
{
  "Code": "AgentEvalRunList",
  "Data": [
    {
      "EvalSetRunId": "…",
      "Status": "completed",
      "Score": 0.86,
      "TestCases": 5,
      "Duration": "42.5s",
      "EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
      "CreatedAt": "2025-04-15T10:30:00Z"
    }
  ]
}

比較を実行

2 つの実行を並べて比較します。A/B テストのプロンプトやモデルの変更に役立ちます。

引数
  • <evalSetRunId> — 最初 (ベースライン) 実行 ID。
オプション
フラグ既定 (Default)Required目的
--compare-to <id>比較対象の 2 回目の実行 ID。
--set <name>評価セットの名前または ID。
--path <path>.エージェント プロジェクト ディレクトリへのパスです。
データシェイプ (Code: "AgentEvalRunComparison")
{
  "Code": "AgentEvalRunComparison",
  "Data": {
    "RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
    "RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
    "ScoreDelta": 0.06,
    "TestCases": [
      { "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
    ]
  }
}
{
  "Code": "AgentEvalRunComparison",
  "Data": {
    "RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
    "RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
    "ScoreDelta": 0.06,
    "TestCases": [
      { "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
    ]
  }
}
  • uip agent pusheval run startの前に実行する必要があります (--solution-idが指定されていない場合)。
  • uip agent validate — 既定の評価セットと評価器は initによって作成されます。validateにより、一貫性が保たれます。
  • uip agent run — エージェントを Orchestrator のジョブとして実行します。エージェント ランタイムの評価の実行とは異なります。

参照

このページは役に立ちましたか?

接続

ヘルプ リソース サポート

学習する UiPath アカデミー

質問する UiPath フォーラム

最新情報を取得