uipath-cli

latest

false

重要 :

请注意，此内容已使用机器翻译进行了本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

UiPath CLI 用户指南

uip 智能体评估

uip agent eval是评估命令组。它在磁盘上管理评估程序、评估集和测试用例，并针对 Agent Runtime 服务执行评估运行。下面有四个子命令树：

uip agent eval evaluator … — 管理评估程序 ( evals/evaluators/*.json )。
uip agent eval set … — 管理评估集 ( evals/eval-sets/*.json )。
uip agent eval add | list | remove — 管理评估集中的测试用例（评估）。
uip agent eval run … — 启动、监控、列出和比较针对 Agent Runtime 服务的评估运行。

除uip agent eval run *以外的所有内容均为仅限本地。run命令需要存在活动的 CLI 会话 ( uip login )，并且智能体已通过uip agent push推送到 Studio Web，或您已显式传递--solution-id 。

所有uip agent eval子命令均采用全局选项（ --output 、 --output-filter 、 --log-level 、 --log-file ）。退出代码遵循标准合同。

大纲

uip agent eval evaluator add    <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list                                                                                 [--path <dir>]
uip agent eval evaluator remove <id>                                                                           [--path <dir>]

uip agent eval set add    <name>  [--evaluators <ids>]                                                         [--path <dir>]
uip agent eval set list                                                                                         [--path <dir>]
uip agent eval set remove <id>                                                                                  [--path <dir>]

uip agent eval add    <name> --set <name> --inputs <json>
                              [--expected <json>] [--expected-agent-behavior <text>]
                              [--simulation-instructions <text>]
                              [--simulate-input] [--simulate-tools]
                              [--input-generation-instructions <text>]
                              [--path <dir>]
uip agent eval list   --set <name>                                                                              [--path <dir>]
uip agent eval remove <id> --set <name>                                                                         [--path <dir>]

uip agent eval run start   --set <name> [--solution-id <id>] [--wait] [--timeout <s>]                           [--path <dir>]
uip agent eval run status  <evalSetRunId> --set <name>                                                          [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list    --set <name>                                                                         [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name>                                        [--path <dir>]
uip agent eval evaluator add    <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list                                                                                 [--path <dir>]
uip agent eval evaluator remove <id>                                                                           [--path <dir>]

uip agent eval set add    <name>  [--evaluators <ids>]                                                         [--path <dir>]
uip agent eval set list                                                                                         [--path <dir>]
uip agent eval set remove <id>                                                                                  [--path <dir>]

uip agent eval add    <name> --set <name> --inputs <json>
                              [--expected <json>] [--expected-agent-behavior <text>]
                              [--simulation-instructions <text>]
                              [--simulate-input] [--simulate-tools]
                              [--input-generation-instructions <text>]
                              [--path <dir>]
uip agent eval list   --set <name>                                                                              [--path <dir>]
uip agent eval remove <id> --set <name>                                                                         [--path <dir>]

uip agent eval run start   --set <name> [--solution-id <id>] [--wait] [--timeout <s>]                           [--path <dir>]
uip agent eval run status  <evalSetRunId> --set <name>                                                          [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list    --set <name>                                                                         [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name>                                        [--path <dir>]

uip 智能体评估评估程序

管理评估程序 — 对智能体输出进行评分的评分器。

评估程序添加

参数

<name> （必填） — 评估程序名称。用作默认文件名。

选项

标记	默认	必填	用途
`--type <type>`	—	是	评估程序类型。已知值包括`SemanticSimilarity` 、 `Trajectory`和`LLM-as-judge` ；运行`uip agent eval evaluator add --help` ，以获取您的安装支持的完整列表。
`--description <desc>`	—		自由文本说明。
`--prompt <prompt>`	—		自定义评估提示词（用于基于提示词的评估程序）。
`--target-key <key>`	—		要评估的目标输出键。
`--path <path>`	`.`		智能体项目目录的路径。

示例

uip agent eval evaluator add content-check \
  --type SemanticSimilarity \
  --path ./my-agent
uip agent eval evaluator add content-check \
  --type SemanticSimilarity \
  --path ./my-agent

Data shape (`--output json`)

{
  "Code": "AgentEvaluatorAdd",
  "Data": {
    "Status": "Evaluator added",
    "Name": "content-check",
    "Type": "SemanticSimilarity",
    "Id": "a1b2c3d4-0000-0000-0000-000000000130",
    "File": "content-check.json"
  }
}
{
  "Code": "AgentEvaluatorAdd",
  "Data": {
    "Status": "Evaluator added",
    "Name": "content-check",
    "Type": "SemanticSimilarity",
    "Id": "a1b2c3d4-0000-0000-0000-000000000130",
    "File": "content-check.json"
  }
}

评估程序列表

选项

--path <path> (default .)

数据形状

{
  "Code": "AgentEvaluatorList",
  "Data": [
    { "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
  ]
}
{
  "Code": "AgentEvaluatorList",
  "Data": [
    { "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
  ]
}

空项目会返回Data: { "Message": "No evaluators configured" } 。

评估程序删除

参数

<id> — evaluator ID or name.

选项

--path <path> (default .)

数据形状

{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }
{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }

uip 智能体评估集

管理评估集 — 测试用例的命名集合以及应对这些用例评分的评估程序。

评估集添加

参数

<name> — evaluation-set name.

选项

标记	默认	用途
`--evaluators <ids>`	项目中的所有评估程序	要包含的以逗号分隔的评估程序 ID。
`--path <path>`	`.`	智能体项目目录的路径。

示例

uip agent eval set add smoke-tests \
  --evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
  --path ./my-agent
uip agent eval set add smoke-tests \
  --evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
  --path ./my-agent

数据形状

{
  "Code": "AgentEvalSetAdd",
  "Data": {
    "Status": "Evaluation set created",
    "Name": "smoke-tests",
    "Id": "a1b2c3d4-0000-0000-0000-000000000110",
    "Evaluators": 2
  }
}
{
  "Code": "AgentEvalSetAdd",
  "Data": {
    "Status": "Evaluation set created",
    "Name": "smoke-tests",
    "Id": "a1b2c3d4-0000-0000-0000-000000000110",
    "Evaluators": 2
  }
}

评估集列表

选项

--path <path> (default .)

数据形状

{
  "Code": "AgentEvalSetList",
  "Data": [
    { "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
  ]
}
{
  "Code": "AgentEvalSetList",
  "Data": [
    { "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
  ]
}

删除评估集

参数

<id> — eval-set ID or name.

选项

--path <path> (default .)

UIP 智能体评估添加| UIP 智能体评估列表 |删除（测试用例）

管理集合内的测试用例（评估）。这些子命令直接位于eval下，而不是在eval set下。

添加评估

参数

<name> — test-case name.

选项

标记	默认	必填	用途
`--set <name>`	—	是	评估集名称或 ID。
`--inputs <json>`	—	是	输入 JSON 字符串形式的值。已解析；无效的 JSON 快速失败。
`--expected <json>`	—		预期输出为 JSON 格式。
`--expected-agent-behavior <text>`	—		轨迹评估器的预期行为描述（例如， `"Must call Web Search tool"` ）。
`--simulation-instructions <text>`	—		有关在评估期间模拟智能体行为的说明。
`--simulate-input`	关闭		为此测试用例启用输入模拟。
`--simulate-tools`	关闭		为此测试用例启用工具模拟。
`--input-generation-instructions <text>`	—		用于合成输入的说明。
`--path <path>`	`.`		智能体项目目录的路径。

示例

uip agent eval add simple-greeting \
  --set default \
  --inputs '{"input":"hello"}' \
  --expected '{"content":"world"}' \
  --path ./my-agent
uip agent eval add simple-greeting \
  --set default \
  --inputs '{"input":"hello"}' \
  --expected '{"content":"world"}' \
  --path ./my-agent

数据形状

{
  "Code": "AgentEvalAdd",
  "Data": {
    "Status": "Evaluation added",
    "Name": "simple-greeting",
    "Id": "a1b2c3d4-0000-0000-0000-000000000120",
    "Set": "default"
  }
}
{
  "Code": "AgentEvalAdd",
  "Data": {
    "Status": "Evaluation added",
    "Name": "simple-greeting",
    "Id": "a1b2c3d4-0000-0000-0000-000000000120",
    "Set": "default"
  }
}

评估列表

选项

--set <name> (required)
--path <path> (default .)

数据形状

{
  "Code": "AgentEvalList",
  "Data": [
    {
      "Name": "simple-greeting",
      "Id": "…",
      "Inputs": "{\"input\":\"hello\"}",
      "Expected": "{\"content\":\"world\"}",
      "ExpectedBehavior": "-"
    }
  ]
}
{
  "Code": "AgentEvalList",
  "Data": [
    {
      "Name": "simple-greeting",
      "Id": "…",
      "Inputs": "{\"input\":\"hello\"}",
      "Expected": "{\"content\":\"world\"}",
      "ExpectedBehavior": "-"
    }
  ]
}

评估删除

参数

<id> — evaluation ID or name.

选项

--set <name> (required)
--path <path> (default .)

uip 智能体评估运行

通过 Agent Runtime 服务 ( EvalsTenantExecutionApi ) 执行、监控和比较评估运行。需要uip login 。

评估运行开始

开始运行评估。智能体必须已位于 Studio Web ( uip agent push ) 中 — 或者显式传递--solution-id ，或者依赖SolutionStorage.json ，后者为push自动写入。

选项

标记	默认	必填	用途
`--set <name>`	—	是	评估集名称或 ID。
`--solution-id <id>`	发件人 `SolutionStorage.json`		Cloud 解决方案 ID。如果省略，则命令从项目读取`SolutionStorage.json` ；如果两者都不可用，则会出错。
`--path <path>`	`.`		智能体项目目录的路径。
`--wait`	关闭		轮询直到运行完成，然后发出摘要和每个测试用例的行。
`--timeout <seconds>`	`600`		设置了`--wait`时的轮询最大秒数。

示例

uip agent eval run start --set default --path ./my-agent --wait
uip agent eval run start --set default --path ./my-agent --wait

Data shape — kickoff (`Code: "AgentEvalRunStarted"`):

{
  "Code": "AgentEvalRunStarted",
  "Data": {
    "EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
    "EvalSetName": "default",
    "TestCases": 5,
    "Evaluators": 2
  }
}
{
  "Code": "AgentEvalRunStarted",
  "Data": {
    "EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
    "EvalSetName": "default",
    "TestCases": 5,
    "Evaluators": 2
  }
}

使用--wait时，轮询后会跟踪另外两个有效负载：

Code: "AgentEvalRunCompleted" — 摘要（ Status 、 Score 、 Duration 、 EvaluatorScores 、 TestCases ）。
Code: "AgentEvalRunResults" — 每个测试用例的行（与eval run results形状相同）。

评估运行状态

轮询正在进行或已完成的运行的状态。

参数

<evalSetRunId> — run ID from eval run start.

选项

--set <name> (required)
--path <path> (default .)

数据形状

{
  "Code": "AgentEvalRunStatus",
  "Data": {
    "EvalSetRunId": "…",
    "Status": "completed",
    "Score": 0.86,
    "Duration": "42.5s",
    "EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
  }
}
{
  "Code": "AgentEvalRunStatus",
  "Data": {
    "EvalSetRunId": "…",
    "Status": "completed",
    "Score": 0.86,
    "Duration": "42.5s",
    "EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
  }
}

评估运行结果

获取每个测试用例的结果。

参数

<evalSetRunId>。

选项

标记	默认	必填	用途
`--set <name>`	—	是	评估集名称或 ID。
`--path <path>`	`.`		智能体项目目录的路径。
`--only-failed`	关闭		仅显示失败或出错的测试用例。
`--verbose`	关闭		在输出中包含评估程序的理由。
`--export-format <json\|csv>`	—		将格式化的行写入`eval-results-<timestamp>.(json\|csv)` ，而不是打印出来。

示例

uip agent eval run results <evalSetRunId> --set default --verbose --only-failed
uip agent eval run results <evalSetRunId> --set default --verbose --only-failed

Data shape (inline — no export):

{
  "Code": "AgentEvalRunResults",
  "Data": [
    {
      "TestCase": "simple-greeting",
      "Status": "completed",
      "Score": 1,
      "EvaluatorScores": "semantic: 0.95",
      "Tokens": 320,
      "Duration": "1.8s",
      "Error": "-"
    }
  ]
}
{
  "Code": "AgentEvalRunResults",
  "Data": [
    {
      "TestCase": "simple-greeting",
      "Status": "completed",
      "Score": 1,
      "EvaluatorScores": "semantic: 0.95",
      "Tokens": 320,
      "Duration": "1.8s",
      "Error": "-"
    }
  ]
}

设置--export-format后，有效负载将变为具有Format 、 File和Records Code: "AgentEvalRunExported" 。

评估运行列表

列出给定评估集的所有运行。

选项

--set <name> (required)
--path <path> (default .)

数据形状

{
  "Code": "AgentEvalRunList",
  "Data": [
    {
      "EvalSetRunId": "…",
      "Status": "completed",
      "Score": 0.86,
      "TestCases": 5,
      "Duration": "42.5s",
      "EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
      "CreatedAt": "2025-04-15T10:30:00Z"
    }
  ]
}
{
  "Code": "AgentEvalRunList",
  "Data": [
    {
      "EvalSetRunId": "…",
      "Status": "completed",
      "Score": 0.86,
      "TestCases": 5,
      "Duration": "42.5s",
      "EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
      "CreatedAt": "2025-04-15T10:30:00Z"
    }
  ]
}

评估运行比较

并排比较两次运行。适用于 A/B 测试提示词或模型更改。

参数

<evalSetRunId> — first (baseline) run ID.

选项

标记	默认	必填	用途
`--compare-to <id>`	—	是	要比较的第二个运行 ID。
`--set <name>`	—	是	评估集名称或 ID。
`--path <path>`	`.`		智能体项目目录的路径。

Data shape (`Code: "AgentEvalRunComparison"`)

{
  "Code": "AgentEvalRunComparison",
  "Data": {
    "RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
    "RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
    "ScoreDelta": 0.06,
    "TestCases": [
      { "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
    ]
  }
}
{
  "Code": "AgentEvalRunComparison",
  "Data": {
    "RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
    "RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
    "ScoreDelta": 0.06,
    "TestCases": [
      { "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
    ]
  }
}

uip agent push — 必须在eval run start之前运行（除非提供了--solution-id ）。
uip agent validate — 默认评估集和评估程序由init创建； validate可使它们保持一致。
uip agent run — 将智能体作为 Orchestrator 作业运行；不同于 Agent Runtime 评估运行。

另请参阅

身份验证— eval run子命令的会话和令牌有效性。
全局选项，退出代码。

此页面有帮助吗？

前一个升级-管理

下一个uip api 工作流

UiPath CLI 用户指南

大纲​

uip 智能体评估评估程序​

评估程序添加​

参数​

选项​

示例​

Data shape (--output json)​

评估程序列表​

选项​

数据形状​

评估程序删除​

参数​

选项​

数据形状​

uip 智能体评估集​

评估集添加​

参数​

选项​

示例​

数据形状​

评估集列表​

选项​

数据形状​

删除评估集​

参数​

选项​

UIP 智能体评估添加| UIP 智能体评估列表 |删除（测试用例）​

添加评估​

参数​

选项​

示例​

数据形状​

评估列表​

选项​

数据形状​

评估删除​

参数​

选项​

uip 智能体评估运行​

评估运行开始​

选项​

示例​

Data shape — kickoff (Code: "AgentEvalRunStarted"):​

评估运行状态​

参数​

选项​

数据形状​

评估运行结果​

参数​

选项​

示例​

Data shape (inline — no export):​

评估运行列表​

选项​

数据形状​

评估运行比较​

参数​

选项​

Data shape (Code: "AgentEvalRunComparison")​

相关内容​

另请参阅​

此页面有帮助吗？

大纲

uip 智能体评估评估程序

评估程序添加

参数

选项

示例

Data shape (`--output json`)

评估程序列表

选项

数据形状

评估程序删除

参数

选项

数据形状

uip 智能体评估集

评估集添加

参数

选项

示例

数据形状

评估集列表

选项

数据形状

删除评估集

参数

选项

UIP 智能体评估添加| UIP 智能体评估列表 |删除（测试用例）

添加评估

参数

选项

示例

数据形状

评估列表

选项

数据形状

评估删除

参数

选项

uip 智能体评估运行

评估运行开始

选项

示例

Data shape — kickoff (`Code: "AgentEvalRunStarted"`):

评估运行状态

参数

选项

数据形状

评估运行结果

参数

选项

示例

Data shape (inline — no export):

评估运行列表

选项

数据形状

评估运行比较

参数

选项

Data shape (`Code: "AgentEvalRunComparison"`)

相关内容

另请参阅