UiPath Documentation
uipath-cli
latest
false
重要 :
请注意,此内容已使用机器翻译进行了本地化。 新发布内容的本地化可能需要 1-2 周的时间才能完成。

UiPath CLI 用户指南

uip 智能体评估

uip agent eval是评估命令组。它在磁盘上管理评估程序、评估集和测试用例,并针对 Agent Runtime 服务执行评估运行。下面有四个子命令树:

  • uip agent eval evaluator … — 管理评估程序 ( evals/evaluators/*.json )。
  • uip agent eval set … — 管理评估集 ( evals/eval-sets/*.json )。
  • uip agent eval add | list | remove — 管理评估集中的测试用例(评估)。
  • uip agent eval run … — 启动、监控、列出和比较针对 Agent Runtime 服务的评估运行。

uip agent eval run *以外的所有内容均为仅限本地。run命令需要存在活动的 CLI 会话 ( uip login ),并且智能体已通过uip agent push推送到 Studio Web,或您已显式传递--solution-id

所有uip agent eval子命令均采用全局选项--output--output-filter--log-level--log-file )。退出代码遵循标准合同

大纲

uip agent eval evaluator add    <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list                                                                                 [--path <dir>]
uip agent eval evaluator remove <id>                                                                           [--path <dir>]

uip agent eval set add    <name>  [--evaluators <ids>]                                                         [--path <dir>]
uip agent eval set list                                                                                         [--path <dir>]
uip agent eval set remove <id>                                                                                  [--path <dir>]

uip agent eval add    <name> --set <name> --inputs <json>
                              [--expected <json>] [--expected-agent-behavior <text>]
                              [--simulation-instructions <text>]
                              [--simulate-input] [--simulate-tools]
                              [--input-generation-instructions <text>]
                              [--path <dir>]
uip agent eval list   --set <name>                                                                              [--path <dir>]
uip agent eval remove <id> --set <name>                                                                         [--path <dir>]

uip agent eval run start   --set <name> [--solution-id <id>] [--wait] [--timeout <s>]                           [--path <dir>]
uip agent eval run status  <evalSetRunId> --set <name>                                                          [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list    --set <name>                                                                         [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name>                                        [--path <dir>]
uip agent eval evaluator add    <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list                                                                                 [--path <dir>]
uip agent eval evaluator remove <id>                                                                           [--path <dir>]

uip agent eval set add    <name>  [--evaluators <ids>]                                                         [--path <dir>]
uip agent eval set list                                                                                         [--path <dir>]
uip agent eval set remove <id>                                                                                  [--path <dir>]

uip agent eval add    <name> --set <name> --inputs <json>
                              [--expected <json>] [--expected-agent-behavior <text>]
                              [--simulation-instructions <text>]
                              [--simulate-input] [--simulate-tools]
                              [--input-generation-instructions <text>]
                              [--path <dir>]
uip agent eval list   --set <name>                                                                              [--path <dir>]
uip agent eval remove <id> --set <name>                                                                         [--path <dir>]

uip agent eval run start   --set <name> [--solution-id <id>] [--wait] [--timeout <s>]                           [--path <dir>]
uip agent eval run status  <evalSetRunId> --set <name>                                                          [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list    --set <name>                                                                         [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name>                                        [--path <dir>]

uip 智能体评估评估程序

管理评估程序 — 对智能体输出进行评分的评分器。

评估程序添加

参数
  • <name> (必填) — 评估程序名称。用作默认文件名。
选项
标记默认必填用途
--type <type>评估程序类型。已知值包括SemanticSimilarityTrajectoryLLM-as-judge ;运行uip agent eval evaluator add --help ,以获取您的安装支持的完整列表。
--description <desc>自由文本说明。
--prompt <prompt>自定义评估提示词(用于基于提示词的评估程序)。
--target-key <key>要评估的目标输出键。
--path <path>.智能体项目目录的路径。
示例
uip agent eval evaluator add content-check \
  --type SemanticSimilarity \
  --path ./my-agent
uip agent eval evaluator add content-check \
  --type SemanticSimilarity \
  --path ./my-agent
Data shape (--output json)
{
  "Code": "AgentEvaluatorAdd",
  "Data": {
    "Status": "Evaluator added",
    "Name": "content-check",
    "Type": "SemanticSimilarity",
    "Id": "a1b2c3d4-0000-0000-0000-000000000130",
    "File": "content-check.json"
  }
}
{
  "Code": "AgentEvaluatorAdd",
  "Data": {
    "Status": "Evaluator added",
    "Name": "content-check",
    "Type": "SemanticSimilarity",
    "Id": "a1b2c3d4-0000-0000-0000-000000000130",
    "File": "content-check.json"
  }
}

评估程序列表

选项
  • --path <path> (default .)
数据形状
{
  "Code": "AgentEvaluatorList",
  "Data": [
    { "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
  ]
}
{
  "Code": "AgentEvaluatorList",
  "Data": [
    { "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
  ]
}

空项目会返回Data: { "Message": "No evaluators configured" }

评估程序删除

参数
  • <id> — evaluator ID or name.
选项
  • --path <path> (default .)
数据形状
{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }
{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }

uip 智能体评估集

管理评估集 — 测试用例的命名集合以及应对这些用例评分的评估程序。

评估集添加

参数
  • <name> — evaluation-set name.
选项
标记默认用途
--evaluators <ids>项目中的所有评估程序要包含的以逗号分隔的评估程序 ID。
--path <path>.智能体项目目录的路径。
示例
uip agent eval set add smoke-tests \
  --evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
  --path ./my-agent
uip agent eval set add smoke-tests \
  --evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
  --path ./my-agent
数据形状
{
  "Code": "AgentEvalSetAdd",
  "Data": {
    "Status": "Evaluation set created",
    "Name": "smoke-tests",
    "Id": "a1b2c3d4-0000-0000-0000-000000000110",
    "Evaluators": 2
  }
}
{
  "Code": "AgentEvalSetAdd",
  "Data": {
    "Status": "Evaluation set created",
    "Name": "smoke-tests",
    "Id": "a1b2c3d4-0000-0000-0000-000000000110",
    "Evaluators": 2
  }
}

评估集列表

选项
  • --path <path> (default .)
数据形状
{
  "Code": "AgentEvalSetList",
  "Data": [
    { "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
  ]
}
{
  "Code": "AgentEvalSetList",
  "Data": [
    { "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
  ]
}

删除评估集

参数
  • <id> — eval-set ID or name.
选项
  • --path <path> (default .)

UIP 智能体评估添加| UIP 智能体评估列表 |删除(测试用例)

管理集合内的测试用例(评估)。这些子命令直接位于eval下,而不是在eval set下。

添加评估

参数
  • <name> — test-case name.
选项
标记默认必填用途
--set <name>评估集名称或 ID。
--inputs <json>输入 JSON 字符串形式的值。已解析;无效的 JSON 快速失败。
--expected <json>预期输出为 JSON 格式。
--expected-agent-behavior <text>轨迹评估器的预期行为描述(例如, "Must call Web Search tool" )。
--simulation-instructions <text>有关在评估期间模拟智能体行为的说明。
--simulate-input关闭为此测试用例启用输入模拟。
--simulate-tools关闭为此测试用例启用工具模拟。
--input-generation-instructions <text>用于合成输入的说明。
--path <path>.智能体项目目录的路径。
示例
uip agent eval add simple-greeting \
  --set default \
  --inputs '{"input":"hello"}' \
  --expected '{"content":"world"}' \
  --path ./my-agent
uip agent eval add simple-greeting \
  --set default \
  --inputs '{"input":"hello"}' \
  --expected '{"content":"world"}' \
  --path ./my-agent
数据形状
{
  "Code": "AgentEvalAdd",
  "Data": {
    "Status": "Evaluation added",
    "Name": "simple-greeting",
    "Id": "a1b2c3d4-0000-0000-0000-000000000120",
    "Set": "default"
  }
}
{
  "Code": "AgentEvalAdd",
  "Data": {
    "Status": "Evaluation added",
    "Name": "simple-greeting",
    "Id": "a1b2c3d4-0000-0000-0000-000000000120",
    "Set": "default"
  }
}

评估列表

选项
  • --set <name> (required)
  • --path <path> (default .)
数据形状
{
  "Code": "AgentEvalList",
  "Data": [
    {
      "Name": "simple-greeting",
      "Id": "…",
      "Inputs": "{\"input\":\"hello\"}",
      "Expected": "{\"content\":\"world\"}",
      "ExpectedBehavior": "-"
    }
  ]
}
{
  "Code": "AgentEvalList",
  "Data": [
    {
      "Name": "simple-greeting",
      "Id": "…",
      "Inputs": "{\"input\":\"hello\"}",
      "Expected": "{\"content\":\"world\"}",
      "ExpectedBehavior": "-"
    }
  ]
}

评估删除

参数
  • <id> — evaluation ID or name.
选项
  • --set <name> (required)
  • --path <path> (default .)

uip 智能体评估运行

通过 Agent Runtime 服务 ( EvalsTenantExecutionApi ) 执行、监控和比较评估运行。需要uip login

评估运行开始

开始运行评估。智能体必须已位于 Studio Web ( uip agent push ) 中 — 或者显式传递--solution-id ,或者依赖SolutionStorage.json ,后者为push自动写入。

选项
标记默认必填用途
--set <name>评估集名称或 ID。
--solution-id <id>发件人 SolutionStorage.jsonCloud 解决方案 ID。如果省略,则命令从项目读取SolutionStorage.json ;如果两者都不可用,则会出错。
--path <path>.智能体项目目录的路径。
--wait关闭轮询直到运行完成,然后发出摘要和每个测试用例的行。
--timeout <seconds>600设置了--wait时的轮询最大秒数。
示例
uip agent eval run start --set default --path ./my-agent --wait
uip agent eval run start --set default --path ./my-agent --wait
Data shape — kickoff (Code: "AgentEvalRunStarted"):
{
  "Code": "AgentEvalRunStarted",
  "Data": {
    "EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
    "EvalSetName": "default",
    "TestCases": 5,
    "Evaluators": 2
  }
}
{
  "Code": "AgentEvalRunStarted",
  "Data": {
    "EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
    "EvalSetName": "default",
    "TestCases": 5,
    "Evaluators": 2
  }
}

使用--wait时,轮询后会跟踪另外两个有效负载:

  • Code: "AgentEvalRunCompleted" — 摘要( StatusScoreDurationEvaluatorScoresTestCases )。
  • Code: "AgentEvalRunResults" — 每个测试用例的行(与eval run results形状相同)。

评估运行状态

轮询正在进行或已完成的运行的状态。

参数
  • <evalSetRunId> — run ID from eval run start.
选项
  • --set <name> (required)
  • --path <path> (default .)
数据形状
{
  "Code": "AgentEvalRunStatus",
  "Data": {
    "EvalSetRunId": "…",
    "Status": "completed",
    "Score": 0.86,
    "Duration": "42.5s",
    "EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
  }
}
{
  "Code": "AgentEvalRunStatus",
  "Data": {
    "EvalSetRunId": "…",
    "Status": "completed",
    "Score": 0.86,
    "Duration": "42.5s",
    "EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
  }
}

评估运行结果

获取每个测试用例的结果。

参数
  • <evalSetRunId>
选项
标记默认必填用途
--set <name>评估集名称或 ID。
--path <path>.智能体项目目录的路径。
--only-failed关闭仅显示失败或出错的测试用例。
--verbose关闭在输出中包含评估程序的理由。
--export-format <json|csv>将格式化的行写入eval-results-<timestamp>.(json|csv) ,而不是打印出来。
示例
uip agent eval run results <evalSetRunId> --set default --verbose --only-failed
uip agent eval run results <evalSetRunId> --set default --verbose --only-failed
Data shape (inline — no export):
{
  "Code": "AgentEvalRunResults",
  "Data": [
    {
      "TestCase": "simple-greeting",
      "Status": "completed",
      "Score": 1,
      "EvaluatorScores": "semantic: 0.95",
      "Tokens": 320,
      "Duration": "1.8s",
      "Error": "-"
    }
  ]
}
{
  "Code": "AgentEvalRunResults",
  "Data": [
    {
      "TestCase": "simple-greeting",
      "Status": "completed",
      "Score": 1,
      "EvaluatorScores": "semantic: 0.95",
      "Tokens": 320,
      "Duration": "1.8s",
      "Error": "-"
    }
  ]
}

设置--export-format后,有效负载将变为具有FormatFileRecords Code: "AgentEvalRunExported"

评估运行列表

列出给定评估集的所有运行。

选项
  • --set <name> (required)
  • --path <path> (default .)
数据形状
{
  "Code": "AgentEvalRunList",
  "Data": [
    {
      "EvalSetRunId": "…",
      "Status": "completed",
      "Score": 0.86,
      "TestCases": 5,
      "Duration": "42.5s",
      "EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
      "CreatedAt": "2025-04-15T10:30:00Z"
    }
  ]
}
{
  "Code": "AgentEvalRunList",
  "Data": [
    {
      "EvalSetRunId": "…",
      "Status": "completed",
      "Score": 0.86,
      "TestCases": 5,
      "Duration": "42.5s",
      "EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
      "CreatedAt": "2025-04-15T10:30:00Z"
    }
  ]
}

评估运行比较

并排比较两次运行。适用于 A/B 测试提示词或模型更改。

参数
  • <evalSetRunId> — first (baseline) run ID.
选项
标记默认必填用途
--compare-to <id>要比较的第二个运行 ID。
--set <name>评估集名称或 ID。
--path <path>.智能体项目目录的路径。
Data shape (Code: "AgentEvalRunComparison")
{
  "Code": "AgentEvalRunComparison",
  "Data": {
    "RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
    "RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
    "ScoreDelta": 0.06,
    "TestCases": [
      { "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
    ]
  }
}
{
  "Code": "AgentEvalRunComparison",
  "Data": {
    "RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
    "RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
    "ScoreDelta": 0.06,
    "TestCases": [
      { "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
    ]
  }
}
  • uip agent push — 必须在eval run start之前运行(除非提供了--solution-id )。
  • uip agent validate — 默认评估集和评估程序由init创建; validate可使它们保持一致。
  • uip agent run — 将智能体作为 Orchestrator 作业运行;不同于 Agent Runtime 评估运行。

另请参阅

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新