uipath-cli
latest
false
重要 :
请注意,此内容已使用机器翻译进行了本地化。
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath CLI 用户指南
uip agent eval是评估命令组。它在磁盘上管理评估程序、评估集和测试用例,并针对 Agent Runtime 服务执行评估运行。下面有四个子命令树:
uip agent eval evaluator …— 管理评估程序 (evals/evaluators/*.json)。uip agent eval set …— 管理评估集 (evals/eval-sets/*.json)。uip agent eval add | list | remove— 管理评估集中的测试用例(评估)。uip agent eval run …— 启动、监控、列出和比较针对 Agent Runtime 服务的评估运行。
除uip agent eval run *以外的所有内容均为仅限本地。run命令需要存在活动的 CLI 会话 ( uip login ),并且智能体已通过uip agent push推送到 Studio Web,或您已显式传递--solution-id 。
大纲
uip agent eval evaluator add <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list [--path <dir>]
uip agent eval evaluator remove <id> [--path <dir>]
uip agent eval set add <name> [--evaluators <ids>] [--path <dir>]
uip agent eval set list [--path <dir>]
uip agent eval set remove <id> [--path <dir>]
uip agent eval add <name> --set <name> --inputs <json>
[--expected <json>] [--expected-agent-behavior <text>]
[--simulation-instructions <text>]
[--simulate-input] [--simulate-tools]
[--input-generation-instructions <text>]
[--path <dir>]
uip agent eval list --set <name> [--path <dir>]
uip agent eval remove <id> --set <name> [--path <dir>]
uip agent eval run start --set <name> [--solution-id <id>] [--wait] [--timeout <s>] [--path <dir>]
uip agent eval run status <evalSetRunId> --set <name> [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list --set <name> [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name> [--path <dir>]
uip agent eval evaluator add <name> --type <type> [--description <d>] [--prompt <p>] [--target-key <k>] [--path <dir>]
uip agent eval evaluator list [--path <dir>]
uip agent eval evaluator remove <id> [--path <dir>]
uip agent eval set add <name> [--evaluators <ids>] [--path <dir>]
uip agent eval set list [--path <dir>]
uip agent eval set remove <id> [--path <dir>]
uip agent eval add <name> --set <name> --inputs <json>
[--expected <json>] [--expected-agent-behavior <text>]
[--simulation-instructions <text>]
[--simulate-input] [--simulate-tools]
[--input-generation-instructions <text>]
[--path <dir>]
uip agent eval list --set <name> [--path <dir>]
uip agent eval remove <id> --set <name> [--path <dir>]
uip agent eval run start --set <name> [--solution-id <id>] [--wait] [--timeout <s>] [--path <dir>]
uip agent eval run status <evalSetRunId> --set <name> [--path <dir>]
uip agent eval run results <evalSetRunId> --set <name> [--only-failed] [--verbose] [--export-format <json|csv>] [--path <dir>]
uip agent eval run list --set <name> [--path <dir>]
uip agent eval run compare <evalSetRunId> --compare-to <id> --set <name> [--path <dir>]
uip 智能体评估评估程序
管理评估程序 — 对智能体输出进行评分的评分器。
评估程序添加
参数
<name>(必填) — 评估程序名称。用作默认文件名。
选项
| 标记 | 默认 | 必填 | 用途 |
|---|---|---|---|
--type <type> | — | 是 | 评估程序类型。已知值包括SemanticSimilarity 、 Trajectory和LLM-as-judge ;运行uip agent eval evaluator add --help ,以获取您的安装支持的完整列表。 |
--description <desc> | — | 自由文本说明。 | |
--prompt <prompt> | — | 自定义评估提示词(用于基于提示词的评估程序)。 | |
--target-key <key> | — | 要评估的目标输出键。 | |
--path <path> | . | 智能体项目目录的路径。 |
示例
uip agent eval evaluator add content-check \
--type SemanticSimilarity \
--path ./my-agent
uip agent eval evaluator add content-check \
--type SemanticSimilarity \
--path ./my-agent
Data shape (--output json)
{
"Code": "AgentEvaluatorAdd",
"Data": {
"Status": "Evaluator added",
"Name": "content-check",
"Type": "SemanticSimilarity",
"Id": "a1b2c3d4-0000-0000-0000-000000000130",
"File": "content-check.json"
}
}
{
"Code": "AgentEvaluatorAdd",
"Data": {
"Status": "Evaluator added",
"Name": "content-check",
"Type": "SemanticSimilarity",
"Id": "a1b2c3d4-0000-0000-0000-000000000130",
"File": "content-check.json"
}
}
评估程序列表
选项
--path <path>(default.)
数据形状
{
"Code": "AgentEvaluatorList",
"Data": [
{ "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
]
}
{
"Code": "AgentEvaluatorList",
"Data": [
{ "Name": "content-check", "Type": "SemanticSimilarity", "Id": "…", "File": "content-check.json" }
]
}
空项目会返回Data: { "Message": "No evaluators configured" } 。
评估程序删除
参数
<id>— evaluator ID or name.
选项
--path <path>(default.)
数据形状
{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }
{ "Code": "AgentEvaluatorRemove", "Data": { "Status": "Evaluator removed", "Id": "content-check" } }
uip 智能体评估集
管理评估集 — 测试用例的命名集合以及应对这些用例评分的评估程序。
评估集添加
参数
<name>— evaluation-set name.
选项
| 标记 | 默认 | 用途 |
|---|---|---|
--evaluators <ids> | 项目中的所有评估程序 | 要包含的以逗号分隔的评估程序 ID。 |
--path <path> | . | 智能体项目目录的路径。 |
示例
uip agent eval set add smoke-tests \
--evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
--path ./my-agent
uip agent eval set add smoke-tests \
--evaluators a1b2c3d4-0000-0000-0000-000000000130,a1b2c3d4-0000-0000-0000-000000000131 \
--path ./my-agent
数据形状
{
"Code": "AgentEvalSetAdd",
"Data": {
"Status": "Evaluation set created",
"Name": "smoke-tests",
"Id": "a1b2c3d4-0000-0000-0000-000000000110",
"Evaluators": 2
}
}
{
"Code": "AgentEvalSetAdd",
"Data": {
"Status": "Evaluation set created",
"Name": "smoke-tests",
"Id": "a1b2c3d4-0000-0000-0000-000000000110",
"Evaluators": 2
}
}
评估集列表
选项
--path <path>(default.)
数据形状
{
"Code": "AgentEvalSetList",
"Data": [
{ "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
]
}
{
"Code": "AgentEvalSetList",
"Data": [
{ "Name": "smoke-tests", "Id": "…", "Evaluations": 5, "Evaluators": 2 }
]
}
删除评估集
参数
<id>— eval-set ID or name.
选项
--path <path>(default.)
UIP 智能体评估添加| UIP 智能体评估列表 |删除(测试用例)
管理集合内的测试用例(评估)。这些子命令直接位于eval下,而不是在eval set下。
添加评估
参数
<name>— test-case name.
选项
| 标记 | 默认 | 必填 | 用途 |
|---|---|---|---|
--set <name> | — | 是 | 评估集名称或 ID。 |
--inputs <json> | — | 是 | 输入 JSON 字符串形式的值。已解析;无效的 JSON 快速失败。 |
--expected <json> | — | 预期输出为 JSON 格式。 | |
--expected-agent-behavior <text> | — | 轨迹评估器的预期行为描述(例如, "Must call Web Search tool" )。 | |
--simulation-instructions <text> | — | 有关在评估期间模拟智能体行为的说明。 | |
--simulate-input | 关闭 | 为此测试用例启用输入模拟。 | |
--simulate-tools | 关闭 | 为此测试用例启用工具模拟。 | |
--input-generation-instructions <text> | — | 用于合成输入的说明。 | |
--path <path> | . | 智能体项目目录的路径。 |
示例
uip agent eval add simple-greeting \
--set default \
--inputs '{"input":"hello"}' \
--expected '{"content":"world"}' \
--path ./my-agent
uip agent eval add simple-greeting \
--set default \
--inputs '{"input":"hello"}' \
--expected '{"content":"world"}' \
--path ./my-agent
数据形状
{
"Code": "AgentEvalAdd",
"Data": {
"Status": "Evaluation added",
"Name": "simple-greeting",
"Id": "a1b2c3d4-0000-0000-0000-000000000120",
"Set": "default"
}
}
{
"Code": "AgentEvalAdd",
"Data": {
"Status": "Evaluation added",
"Name": "simple-greeting",
"Id": "a1b2c3d4-0000-0000-0000-000000000120",
"Set": "default"
}
}
评估列表
选项
--set <name>(required)--path <path>(default.)
数据形状
{
"Code": "AgentEvalList",
"Data": [
{
"Name": "simple-greeting",
"Id": "…",
"Inputs": "{\"input\":\"hello\"}",
"Expected": "{\"content\":\"world\"}",
"ExpectedBehavior": "-"
}
]
}
{
"Code": "AgentEvalList",
"Data": [
{
"Name": "simple-greeting",
"Id": "…",
"Inputs": "{\"input\":\"hello\"}",
"Expected": "{\"content\":\"world\"}",
"ExpectedBehavior": "-"
}
]
}
评估删除
参数
<id>— evaluation ID or name.
选项
--set <name>(required)--path <path>(default.)
uip 智能体评估运行
通过 Agent Runtime 服务 ( EvalsTenantExecutionApi ) 执行、监控和比较评估运行。需要uip login 。
评估运行开始
开始运行评估。智能体必须已位于 Studio Web ( uip agent push ) 中 — 或者显式传递--solution-id ,或者依赖SolutionStorage.json ,后者为push自动写入。
选项
| 标记 | 默认 | 必填 | 用途 |
|---|---|---|---|
--set <name> | — | 是 | 评估集名称或 ID。 |
--solution-id <id> | 发件人 SolutionStorage.json | Cloud 解决方案 ID。如果省略,则命令从项目读取SolutionStorage.json ;如果两者都不可用,则会出错。 | |
--path <path> | . | 智能体项目目录的路径。 | |
--wait | 关闭 | 轮询直到运行完成,然后发出摘要和每个测试用例的行。 | |
--timeout <seconds> | 600 | 设置了--wait时的轮询最大秒数。 |
示例
uip agent eval run start --set default --path ./my-agent --wait
uip agent eval run start --set default --path ./my-agent --wait
Data shape — kickoff (Code: "AgentEvalRunStarted"):
{
"Code": "AgentEvalRunStarted",
"Data": {
"EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
"EvalSetName": "default",
"TestCases": 5,
"Evaluators": 2
}
}
{
"Code": "AgentEvalRunStarted",
"Data": {
"EvalSetRunId": "a1b2c3d4-0000-0000-0000-000000000101",
"EvalSetName": "default",
"TestCases": 5,
"Evaluators": 2
}
}
使用--wait时,轮询后会跟踪另外两个有效负载:
Code: "AgentEvalRunCompleted"— 摘要(Status、Score、Duration、EvaluatorScores、TestCases)。Code: "AgentEvalRunResults"— 每个测试用例的行(与eval run results形状相同)。
评估运行状态
轮询正在进行或已完成的运行的状态。
参数
<evalSetRunId>— run ID fromeval run start.
选项
--set <name>(required)--path <path>(default.)
数据形状
{
"Code": "AgentEvalRunStatus",
"Data": {
"EvalSetRunId": "…",
"Status": "completed",
"Score": 0.86,
"Duration": "42.5s",
"EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
}
}
{
"Code": "AgentEvalRunStatus",
"Data": {
"EvalSetRunId": "…",
"Status": "completed",
"Score": 0.86,
"Duration": "42.5s",
"EvaluatorScores": "semantic: 0.9, trajectory: 0.82"
}
}
评估运行结果
获取每个测试用例的结果。
参数
<evalSetRunId>。
选项
| 标记 | 默认 | 必填 | 用途 |
|---|---|---|---|
--set <name> | — | 是 | 评估集名称或 ID。 |
--path <path> | . | 智能体项目目录的路径。 | |
--only-failed | 关闭 | 仅显示失败或出错的测试用例。 | |
--verbose | 关闭 | 在输出中包含评估程序的理由。 | |
--export-format <json|csv> | — | 将格式化的行写入eval-results-<timestamp>.(json|csv) ,而不是打印出来。 |
示例
uip agent eval run results <evalSetRunId> --set default --verbose --only-failed
uip agent eval run results <evalSetRunId> --set default --verbose --only-failed
Data shape (inline — no export):
{
"Code": "AgentEvalRunResults",
"Data": [
{
"TestCase": "simple-greeting",
"Status": "completed",
"Score": 1,
"EvaluatorScores": "semantic: 0.95",
"Tokens": 320,
"Duration": "1.8s",
"Error": "-"
}
]
}
{
"Code": "AgentEvalRunResults",
"Data": [
{
"TestCase": "simple-greeting",
"Status": "completed",
"Score": 1,
"EvaluatorScores": "semantic: 0.95",
"Tokens": 320,
"Duration": "1.8s",
"Error": "-"
}
]
}
设置--export-format后,有效负载将变为具有Format 、 File和Records Code: "AgentEvalRunExported" 。
评估运行列表
列出给定评估集的所有运行。
选项
--set <name>(required)--path <path>(default.)
数据形状
{
"Code": "AgentEvalRunList",
"Data": [
{
"EvalSetRunId": "…",
"Status": "completed",
"Score": 0.86,
"TestCases": 5,
"Duration": "42.5s",
"EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
"CreatedAt": "2025-04-15T10:30:00Z"
}
]
}
{
"Code": "AgentEvalRunList",
"Data": [
{
"EvalSetRunId": "…",
"Status": "completed",
"Score": 0.86,
"TestCases": 5,
"Duration": "42.5s",
"EvaluatorScores": "semantic: 0.9, trajectory: 0.82",
"CreatedAt": "2025-04-15T10:30:00Z"
}
]
}
评估运行比较
并排比较两次运行。适用于 A/B 测试提示词或模型更改。
参数
<evalSetRunId>— first (baseline) run ID.
选项
| 标记 | 默认 | 必填 | 用途 |
|---|---|---|---|
--compare-to <id> | — | 是 | 要比较的第二个运行 ID。 |
--set <name> | — | 是 | 评估集名称或 ID。 |
--path <path> | . | 智能体项目目录的路径。 |
Data shape (Code: "AgentEvalRunComparison")
{
"Code": "AgentEvalRunComparison",
"Data": {
"RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
"RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
"ScoreDelta": 0.06,
"TestCases": [
{ "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
]
}
}
{
"Code": "AgentEvalRunComparison",
"Data": {
"RunA": { "Id": "…", "Score": 0.86, "Status": "completed" },
"RunB": { "Id": "…", "Score": 0.80, "Status": "completed" },
"ScoreDelta": 0.06,
"TestCases": [
{ "TestCase": "simple-greeting", "ScoreA": 1, "ScoreB": 0.9, "Delta": "+0.1", "StatusA": "completed", "StatusB": "completed" }
]
}
}
相关内容
uip agent push— 必须在eval run start之前运行(除非提供了--solution-id)。uip agent validate— 默认评估集和评估程序由init创建;validate可使它们保持一致。uip agent run— 将智能体作为 Orchestrator 作业运行;不同于 Agent Runtime 评估运行。