- 概要
- はじめに
- 概念
- UiPath CLI を使用する
- UiPath for Coding Agents
- 使用ガイド
- CI/CD レシピ
- コマンド リファレンス
- 概要
- 終了コード
- グローバル オプション
- uip codedagent
- uip docsai
- add-test-data-entity
- テスト データのキューを追加
- 追加-テスト-データ-バリエーション
- 分析
- 開発
- プロジェクトを作成
- 差分
- アクティビティを検索
- GET-ANALYZER-RULES
- get-default-activity-xaml
- エラーを取得
- 手動テスト用のテスト ケースを取得
- 手動テストステップを取得
- get-versions
- Get-workflow-example
- indicate-application
- 要素を示す
- inspect-package
- install-data-fabric-entities
- パッケージのインストールまたは更新
- list-data-fabric-entities
- list-workflow-examples
- パッケージ化
- 元に戻す
- ファイル名を実行
- 検索テンプレート
- スタートスタジオ
- 実行を停止
- UIA
- UIP トレース
- 移行
- 参照とサポート
UiPath CLI ユーザー ガイド
uip agent eval 評価コマンド グループです。ディスク上の評価器、評価セット、テスト ケースを管理し、Agent Runtime サービスに対して評価を実行します。4つのサブコマンドツリーが下にあります。
uip agent eval evaluator …— 評価器 (evals/evaluators/*.json) を管理します。uip agent eval set …— 評価セット (evals/eval-sets/*.jsonの管理)uip agent eval add | list | remove— 評価セット内のテスト ケース (評価) を管理します。uip agent eval run …— エージェント ランタイム サービスに対する評価の実行を開始、監視、リスト表示、比較します。
uip agent eval run *を除くすべてはローカル専用です。runサブコマンドを使用するには、アクティブな CLI セッション (uip login) が必要であり、エージェントが (uip agent push経由で) 既に Studio Web にプッシュされているか、明示的に--solution-id渡されている必要があります。
uip agent evalすべてのサブコマンドは、グローバルオプション (--output、 --output-filter、 --log-level、 --log-file) を優先します。終了コードは 標準コントラクトに従います。
概要
uip agent eval evaluator add <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list [--path <dir>]
uip agent eval evaluator remove <id> [--path <dir>]
uip agent eval set add <name> [--evaluators <ids>] [--path <dir>]
uip agent eval set list [--path <dir>]
uip agent eval set remove <id> [--path <dir>]
uip agent eval add <name> --set <name> --inputs <json>
[--expected <json>] [--expected-agent-behavior <text>]
[--simulation-instructions <text>]
[--simulate-input] [--simulate-tools]
[--input-generation-instructions <text>]
[--path <dir>]
uip agent eval list --set <name> [--path <dir>]
uip agent eval remove <id> --set <name> [--path <dir>]
uip agent eval run start --set <name> [--solution-id <id>] [--wait] [--timeout <s>] [--path <dir>]
uip agent eval run status <evalSetRunId> --set <name> [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list --set <name> [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name> [--path <dir>]
uip agent eval evaluator add <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list [--path <dir>]
uip agent eval evaluator remove <id> [--path <dir>]
uip agent eval set add <name> [--evaluators <ids>] [--path <dir>]
uip agent eval set list [--path <dir>]
uip agent eval set remove <id> [--path <dir>]
uip agent eval add <name> --set <name> --inputs <json>
[--expected <json>] [--expected-agent-behavior <text>]
[--simulation-instructions <text>]
[--simulate-input] [--simulate-tools]
[--input-generation-instructions <text>]
[--path <dir>]
uip agent eval list --set <name> [--path <dir>]
uip agent eval remove <id> --set <name> [--path <dir>]
uip agent eval run start --set <name> [--solution-id <id>] [--wait] [--timeout <s>] [--path <dir>]
uip agent eval run status <evalSetRunId> --set <name> [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list --set <name> [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name> [--path <dir>]
UIP エージェントの評価器
評価器の管理 — エージェントの出力を採点する採点者。
評価器を追加する
引数
<name>(必須) — 評価器名。既定のファイル名として使用されます。
オプション
| フラグ | 既定 (Default) | Required | 目的 |
|---|---|---|---|
--type <type> | — | ○ | 評価器の種類。既知の値には、 SemanticSimilarity、 Trajectory、および LLM-as-judgeがあります。お使いのインストールでサポートされている完全なリストについては、 uip agent eval evaluator add --help をご覧ください。 |
--description <desc> | — | フリーテキストの説明。 | |
--prompt <prompt> | — | カスタム評価プロンプト (プロンプトベースの評価器の場合) | |
--target-key <key> | — | 評価対象の出力キーです。 | |
--path <path> | . | エージェント プロジェクト ディレクトリへのパスです。 |
例
uip agent eval evaluator add content-check \
--type SemanticSimilarity \
--path ./my-agent
uip agent eval evaluator add content-check \
--type SemanticSimilarity \
--path ./my-agent
データシェイプ (--output json)
{
"Code": "AgentEvaluatorAdd",
"Data": {
"Status": "Evaluator added",
"Name": "content-check",
"Type": "SemanticSimilarity",
"Id": "a1b2c3d4-0000-0000-0000-000000000130",
"File": "content-check.json"
}
}
{
"Code": "AgentEvaluatorAdd",
"Data": {
"Status": "Evaluator added",
"Name": "content-check",
"Type": "SemanticSimilarity",
"Id": "a1b2c3d4-0000-0000-0000-000000000130",
"File": "content-check.json"
}
}
評価器のリスト
オプション
--path <path>(既定.)
データシェイプ
{
"Code": "AgentEvaluatorList",
"Data": [
{ "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
]
}
{
"Code": "AgentEvaluatorList",
"Data": [
{ "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
]
}
空のプロジェクトは [ Data: { "Message": "No evaluators configured" }を返します。
評価器を評価 削除する
引数
<id>— 評価器の ID または名前。
オプション
--path <path>(既定.)
データシェイプ
{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }
{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }
UIP エージェント評価セット
評価セットを管理する — テスト ケースと、テスト ケースをスコアリングする評価器の名前付きのコレクションです。
eval set add
引数
<name>— 評価セット名
オプション
| フラグ | 既定 (Default) | 目的 |
|---|---|---|
--evaluators <ids> | プロジェクトのすべての評価者 | 含めるコンマ区切りのエバリュエーター ID。 |
--path <path> | . | エージェント プロジェクト ディレクトリへのパスです。 |
例
uip agent eval set add smoke-tests \
--evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
--path ./my-agent
uip agent eval set add smoke-tests \
--evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
--path ./my-agent
データシェイプ
{
"Code": "AgentEvalSetAdd",
"Data": {
"Status": "Evaluation set created",
"Name": "smoke-tests",
"Id": "a1b2c3d4-0000-0000-0000-000000000110",
"Evaluators": 2
}
}
{
"Code": "AgentEvalSetAdd",
"Data": {
"Status": "Evaluation set created",
"Name": "smoke-tests",
"Id": "a1b2c3d4-0000-0000-0000-000000000110",
"Evaluators": 2
}
}
評価セット一覧
オプション
--path <path>(既定.)
データシェイプ
{
"Code": "AgentEvalSetList",
"Data": [
{ "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
]
}
{
"Code": "AgentEvalSetList",
"Data": [
{ "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
]
}
評価セットの削除
引数
<id>— 評価セットの ID または名前。
オプション
--path <path>(既定.)
UIP エージェントの評価版 追加 |一覧 |削除 (テスト ケース)
セット内のテスト ケース (評価) を管理します。これらのサブコマンドは、eval setではなく、evalの直下にあります。
eval add
引数
<name>— テストケース名。
オプション
| フラグ | 既定 (Default) | Required | 目的 |
|---|---|---|---|
--set <name> | — | ○ | 評価セットの名前または ID。 |
--inputs <json> | — | ○ | 値を JSON 文字列として入力します。解析;無効な JSON はすぐに失敗します。 |
--expected <json> | — | JSON としての出力が期待されます。 | |
--expected-agent-behavior <text> | — | 軌跡評価器に期待される挙動の説明( "Must call Web Search tool"など)。 | |
--simulation-instructions <text> | — | 評価中にエージェントの動作をシミュレートするための手順。 | |
--simulate-input | 無効 | このテスト ケースの入力シミュレーションを有効化します。 | |
--simulate-tools | 無効 | このテスト ケースのツール シミュレーションを有効にします。 | |
--input-generation-instructions <text> | — | 入力を合成するための指示。 | |
--path <path> | . | エージェント プロジェクト ディレクトリへのパスです。 |
例
uip agent eval add simple-greeting \
--set default \
--inputs '{"input":"hello"}' \
--expected '{"content":"world"}' \
--path ./my-agent
uip agent eval add simple-greeting \
--set default \
--inputs '{"input":"hello"}' \
--expected '{"content":"world"}' \
--path ./my-agent
データシェイプ
{
"Code": "AgentEvalAdd",
"Data": {
"Status": "Evaluation added",
"Name": "simple-greeting",
"Id": "a1b2c3d4-0000-0000-0000-000000000120",
"Set": "default"
}
}
{
"Code": "AgentEvalAdd",
"Data": {
"Status": "Evaluation added",
"Name": "simple-greeting",
"Id": "a1b2c3d4-0000-0000-0000-000000000120",
"Set": "default"
}
}
評価リスト
オプション
--set <name>(必須)--path <path>(既定.)
データシェイプ
{
"Code": "AgentEvalList",
"Data": [
{
"Name": "simple-greeting",
"Id": "…",
"Inputs": "{\"input\":\"hello\"}",
"Expected": "{\"content\":\"world\"}",
"ExpectedBehavior": "-"
}
]
}
{
"Code": "AgentEvalList",
"Data": [
{
"Name": "simple-greeting",
"Id": "…",
"Inputs": "{\"input\":\"hello\"}",
"Expected": "{\"content\":\"world\"}",
"ExpectedBehavior": "-"
}
]
}
eval remove
引数
<id>— 評価 ID または名前
オプション
--set <name>(必須)--path <path>(既定.)
uip エージェントの評価実行
Agent Runtime サービス (EvalsTenantExecutionApi) を使用して、評価の実行を実行、監視、比較します。uip loginが必要です。
eval run start
評価の実行を開始します。エージェントはすでに Studio Web (uip agent push) に存在する必要があります。 --solution-id 明示的に渡すか、 SolutionStorage.jsonに依存しています。この は自動的に書き込み push 。
オプション
| フラグ | 既定 (Default) | Required | 目的 |
|---|---|---|---|
--set <name> | — | ○ | 評価セットの名前または ID。 |
--solution-id <id> | 時刻: SolutionStorage.json | クラウド ソリューション ID。省略すると、コマンドはプロジェクトから SolutionStorage.json を読み取ります。どちらも利用できない場合はエラーになります。 | |
--path <path> | . | エージェント プロジェクト ディレクトリへのパスです。 | |
--wait | 無効 | 実行が完了するまでポーリングし、summary + per-test-case 行を出力します。 | |
--timeout <seconds> | 600 | --waitが設定されている場合にポーリングする最大秒数。 |
例
uip agent eval run start --set default --path ./my-agent --wait
uip agent eval run start --set default --path ./my-agent --wait
データ形状 — キックオフ (Code: "AgentEvalRunStarted"):
{
"Code": "AgentEvalRunStarted",
"Data": {
"EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
"EvalSetName": "default",
"TestCases": 5,
"Evaluators": 2
}
}
{
"Code": "AgentEvalRunStarted",
"Data": {
"EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
"EvalSetName": "default",
"TestCases": 5,
"Evaluators": 2
}
}
--waitでは、ポーリング後に 2 つの追加のペイロードが続きます。
Code: "AgentEvalRunCompleted"— 概要 (Status,Score,Duration,EvaluatorScores,TestCases).Code: "AgentEvalRunResults"— テスト ケースごとの行 (eval run resultsと同じ形状)。
評価の実行ステータス
実行中または完了した実行のステータスをポーリングします。
引数
<evalSetRunId>—eval run startから ID を実行します。
オプション
--set <name>(必須)--path <path>(既定.)
データシェイプ
{
"Code": "AgentEvalRunStatus",
"Data": {
"EvalSetRunId": "…",
"Status": "completed",
"Score": 0.86,
"Duration": "42.5s",
"EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
}
}
{
"Code": "AgentEvalRunStatus",
"Data": {
"EvalSetRunId": "…",
"Status": "completed",
"Score": 0.86,
"Duration": "42.5s",
"EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
}
}
評価の実行結果
テスト ケースごとの結果を取得する。
引数
<evalSetRunId>です。
オプション
| フラグ | 既定 (Default) | Required | 目的 |
|---|---|---|---|
--set <name> | — | ○ | 評価セットの名前または ID。 |
--path <path> | . | エージェント プロジェクト ディレクトリへのパスです。 | |
--only-failed | 無効 | 失敗またはエラーが発生したテスト ケースのみを表示します。 | |
--verbose | 無効 | 出力に評価器の妥当性を含めます。 | |
--export-format <json|csv> | — | 書式設定された行は、印刷するのではなく、 eval-results-<timestamp>.(json|csv) に書き込みます。 |
例
uip agent eval run results <evalSetRunId> --set default --verbose --only-failed
uip agent eval run results <evalSetRunId> --set default --verbose --only-failed
データ形状 (インライン — エクスポートなし):
{
"Code": "AgentEvalRunResults",
"Data": [
{
"TestCase": "simple-greeting",
"Status": "completed",
"Score": 1,
"EvaluatorScores": "semantic: 0.95",
"Tokens": 320,
"Duration": "1.8s",
"Error": "-"
}
]
}
{
"Code": "AgentEvalRunResults",
"Data": [
{
"TestCase": "simple-greeting",
"Status": "completed",
"Score": 1,
"EvaluatorScores": "semantic: 0.95",
"Tokens": 320,
"Duration": "1.8s",
"Error": "-"
}
]
}
--export-formatを設定すると、ペイロードは Format、Fileおよび RecordsとCode: "AgentEvalRunExported"されます。
評価実行リスト
指定した評価セットのすべての実行のリストを取得します。
オプション
--set <name>(必須)--path <path>(既定.)
データシェイプ
{
"Code": "AgentEvalRunList",
"Data": [
{
"EvalSetRunId": "…",
"Status": "completed",
"Score": 0.86,
"TestCases": 5,
"Duration": "42.5s",
"EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
"CreatedAt": "2025-04-15T10:30:00Z"
}
]
}
{
"Code": "AgentEvalRunList",
"Data": [
{
"EvalSetRunId": "…",
"Status": "completed",
"Score": 0.86,
"TestCases": 5,
"Duration": "42.5s",
"EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
"CreatedAt": "2025-04-15T10:30:00Z"
}
]
}
比較を実行
2 つの実行を並べて比較します。A/B テストのプロンプトやモデルの変更に役立ちます。
引数
<evalSetRunId>— 最初 (ベースライン) 実行 ID。
オプション
| フラグ | 既定 (Default) | Required | 目的 |
|---|---|---|---|
--compare-to <id> | — | ○ | 比較対象の 2 回目の実行 ID。 |
--set <name> | — | ○ | 評価セットの名前または ID。 |
--path <path> | . | エージェント プロジェクト ディレクトリへのパスです。 |
データシェイプ (Code: "AgentEvalRunComparison")
{
"Code": "AgentEvalRunComparison",
"Data": {
"RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
"RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
"ScoreDelta": 0.06,
"TestCases": [
{ "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
]
}
}
{
"Code": "AgentEvalRunComparison",
"Data": {
"RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
"RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
"ScoreDelta": 0.06,
"TestCases": [
{ "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
]
}
}
関連
uip agent push—eval run startの前に実行する必要があります (--solution-idが指定されていない場合)。uip agent validate— 既定の評価セットと評価器はinitによって作成されます。validateにより、一貫性が保たれます。uip agent run— エージェントを Orchestrator のジョブとして実行します。エージェント ランタイムの評価の実行とは異なります。
参照
- 認証 —
eval runサブコマンドのセッションとトークンの有効性。 - グローバル オプション、 終了コード。