- 入门指南
- Studio Web 中的 UiPath 智能体
- Agent Builder 中的 UiPath 智能体
- UiPath 编码智能体

智能体用户指南
当您构建智能体时,您希望它稳定可靠,能够相信它可以始终如一地提供正确的输出。评估有助于您确定智能体的性能是否出色,或者是否需要改进。
术语
评估是输入与对输出做出的断言 — 或评估程序 — 组成的对。评估程序是一个定义的条件或规则,用于评估智能体的输出是否符合预期输出或预期轨迹。
评估集是评估和评估程序的逻辑分组。
评估结果是完成运行的评估的追踪记录,用于评估智能体的性能。在运行评估的过程中,会测量智能体的准确性、效率和决策能力,并根据智能体的性能进行评分。
评估分数 根据特定评估中的断言确定智能体的性能。分数范围为 0 到 100。如果您评估运行失败,您必须诊断原因、调试并重新运行。
在大规模创建评估之前,您可以先在一次性场景中测试智能体,以查看智能体是否能够执行任务以及输出是否正确。如果您的智能体生成正确输出,您可以从正确的运行中创建评估。如果您的智能体未生成正确的输出,您可以修复输出,并使用预期输出创建评估,也可以从头创建评估。
根据试运行情况创建评估
- 设计智能体后,请选择“调试配置”。
- 在“调试配置”窗口中,确认解决方案中使用的资源,然后:
-
提供测试运行的输入:
- 通过键入内容来手动提供输入,或
- 模拟输入:使用 LLM 为智能体参数生成输入。您可以让 LLM 自动生成输入或提供提示,以将其引导到特定示例。
- 配置您是想使用真实工具进行测试,还是使用一个、多个或所有模拟工具进行测试。
- 模拟工具:使用 LLM 模拟一个或多个智能体工具。描述每个工具的响应方式,并模拟您的智能体所依赖的部分或全部工具集。
-
-
选择“保存和调试”。
结果显示在“执行追踪”底部面板中。 指标可以显示您的智能体正在使用真实数据还是模拟数据运行。
- 如果输出正确,请选择“添加到评估集”按钮。 如果输出不正确,您可以:
- 优化提示词:调整提示词并重新测试智能体,直到输出正确为止。
- 根据错误输出创建评估:根据错误输出生成评估,然后对其进行手动编辑,以符合预期结果。
-
试运行列出在添加到评估集窗口中。对于您想要添加到评估的任何运行,选择添加到默认集。
如果您已经创建评估集,您可以从可用的下拉列表中选择该集。
-
接下来,转到“ 评估集 ”面板。提供三个选项:
- 使用预构建评估集组织评估。
- 使用模拟输入和工具生成新集。
- 在现有集中添加评估,包括真实和模拟数据。
- 选择集评估以运行评估。您还可以从集中选择想要评估的特定评估。
- 转到结果选项卡,查看评估分数和详细信息。
从零开始创建评估
- 设计智能体之后,转到评估集选项卡并选择新建。
您还可以选择导入,以使用来自其他智能体评估的现有 JSON 数据。
- 为评估集添加相关名称。
-
选择添加到集,以创建新评估。对于集中的每一个新评估:
-
添加名称。
-
为输入字段(从已定义的输入参数继承而来)添加值和预期输出。
-
选择“保存”。
-
- 接下来,选择设置评估程序,将评估程序分配给评估集。
您可以为一个集分配一个或多个评估程序。
-
选择保存更改。
-
在评估集主页中,对您要运行的每个评估集选择运行评估集。
-
转到结果选项卡,查看评估分数和详细信息。
基于 runtime 追踪创建评估
您可以直接根据 runtime 追踪创建智能体评估,从而将生产反馈转化为可操作的测试用例,以改进设计时。
- 首先,运行您的智能体。
- 在 Orchestrator 中,转到“自动化 > 作业”,然后打开智能体运行的作业追踪。 或者,转到“智能体实例管理”页面,以查看智能体运行追踪记录。
- 为智能体运行提供反馈:
- 对每个追踪选择“赞”或“踩”图标。
- 添加注释,以使评估可操作。
- 在智能体定义中获取 runtime 追踪:
- 返回 Studio Web 中的智能体,然后导航到“评估”>“评估集”。
- 在“创建”按钮下,选择“获取 runtime 追踪”,以提取收到反馈的追踪记录。
- 将追踪记录添加到评估集中:
- 从获取的追踪记录中,选择“添加到评估集中”。
- 根据需要编辑输入和预期输出。
- 将追踪记录保存到选定的评估集中。
- 将追踪记录保存到选定的评估集中。
添加后,runtime 追踪会被明确标记为评估集中的 runtime 运行,以便于将其与离线测试运行区分开。 这些追踪记录还会自动更新智能体的总体评估分数,使您能够立即了解真实世界反馈如何提高智能体性能。
生成评估
您还可以创建包含模拟的评估集。使用模拟输入和工具生成新的评估集(或添加到现有评估集)。
- 选择“创建”。
- 选择“ 生成新的评估集”。
您可以让 LLM 根据现有智能体、其设计运行情况、参数自动生成评估集,或提供提示以将其引导到特定示例。
For details, refer to Configuring simulations in evaluations.
定义评估程序
使用评估程序面板来创建和管理评估程序。默认情况下,每个智能体都有一个预定义、基于 LLM 的默认评估程序。
要创建您自己的评估程序:
- 选择新建:
- 选择评估程序类型:
- LLM-as-a judge:语义相似性 – 创建您自己的基于 LLM 的评估程序。
- 完全匹配 – 检查智能体输出是否与预期输出匹配。
- JSON 相似性 – 检查两个 JSON 结构或值是否相似。
- 轨迹评估程序 – 使用 AI 根据运行历史记录和预期行为判断智能体。
- 选择“继续”。
- 配置评估程序:
-
添加相关名称和描述。
- 选择目标输出字段:
- 确定根级目标(* 全部):评估整个输出。
- 确定特定字段的目标:评估特定一级字段。使用下拉菜单选择一个字段。列出的输出字段来自您为系统提示定义的输出参数。
- 添加提示词(仅适用于基于 LLM 的评估程序)。
-
选择评估程序类型
如果您不确定哪种评估程序类型适合您,请参阅以下建议:
- LLM-as-a-Judge:
- 确定根输出目标时,建议将此方法作为默认方法。
- 对复杂输出提供灵活评估。
- 除了精确匹配之外,还可以评估质量和正确性。
- 最适用于评估推理、自然语言响应或复杂的结构化输出。
- 确定性(精确匹配或 JSON 相似性):
- 如果希望获得完全匹配,建议选择此类型。
- 当您严格定义了输出要求时,此类型最有效。
- 适用于复杂对象,但最适用于:
- 布尔值(真/假)
- 特定数值
- 精确的字符串匹配
- 基元数组。
模拟通过模拟工具和升级行为(而非真实端点)实现安全、快速且经济高效的测试,从而增强智能体评估能力。 它们提供评估级别的细粒度控制,使团队能够定义要模拟的组件,并将真实运行和模拟运行组合到同一个评估集中。 这种灵活性支持固定或生成输入以及文字输出和基于行为的分级,提高了测试覆盖率、可重复性以及智能体行为是否按预期评估能力。
For additional information, refer to Configuring simulations for agent tools.
如何设置评估模拟
要使用模拟设置新的评估集,请按照以下步骤操作:
- 在“ 评估集 ”选项卡中,选择“ 创建” ,然后选择“ 生成新的评估集”。
- 输入您想要生成的评估用例的描述。
您可以提供高级上下文、特定场景或粘贴相关内容,以指导您的生成。如果将此字段保留为空,系统仍会自动为您生成评估用例。
- 选择“ 生成评估”。
Autopilot 会生成多个评估。对于每个评估,您可以查看和编辑模拟指令、输入生成指令和预期行为说明。
- 选择您想要使用的评估,然后选择“ 添加集”。
要为现有评估配置模拟,请按照以下步骤操作:
- 打开任何评估集,然后对任何评估都选择“ 编辑”。 此时将显示“ 编辑评估 ”面板。
-
在“ 安排 ”部分中,使用手动值或 runtime 生成指令定义或生成输入数据。
如果您手动定义输入数据,您可以将“ 测试 ”字段设置为“ 真” ,以表示该字段是测试场景的一部分。
- 在“ 行为 ”部分中,选择每个工具应模拟行为还是执行真实调用,并添加模拟指令。 工具执行是默认设置。
- 在“ 断言 ”部分中,指定评估基于输出匹配还是智能体轨迹,并描述预期行为和输出。
-
选择“ 保存” ,以应用您的配置。
在哪里进行评估
您可以在两个地方进行评估,具体取决于您的工作流:
-
设计画布中的底部面板 – 在您主动构建或测试智能体时,提供快速访问评估的机会。 面板包含:
-
“历史记录”选项卡,用于查看过去的运行以及完整追踪记录,并将其直接添加到评估集中。
-
“评估”选项卡,用于查看评估集,查看最近的分数,深入了解详细信息,或单独或完整重新运行测试。您还可以比较实际输出与预期输出,并在正确的情况下使用实际输出更新评估。
-
“执行追踪”选项卡,用于实时跟踪当前运行的追踪详细信息。 对于对话智能体,此选项卡可用作“聊天”,提供一个用于测试智能体的交互式聊天窗口,同时显示每轮对话的执行历史记录。
-
- “智能体定义”下的“评估”选项卡 – 提供完整的评估工作区。 在这里,您可以创建和组织评估集,分配评估者,配置输入和预期输出,以及大规模运行评估。 这是设置结构化评估场景和一段时间内管理评估资产的最佳位置。
使用底部面板有助于日常迭代和调试,而专用的“评估”选项卡更适合用于评估集的完整管理和配置。
精心组织您的评估提示词
结构完整的输出可以使评估更加可靠。这就是最好有结构化输出的原因——它可以确保一致性并简化比较流程。
下面是评估整个输出情况的预定义提示词示例:
请以评估专家的身份分析这些 JSON 内容的语义相似性,并给予评分(范围为 0-100)。请专注于比较相应字段的含义和上下文等效性,考虑有效的替代表达式、同义词以及语言中的合理变化,同时保持较高的准确性和完整性标准。请为您的评分做出解释,简要说明您给出该分数的原因。
预期输出:{{ExpectedOutput}}
实际输出:{{ActualOutput}}
评估次数
The Agent Score considers 30+ evaluations as a good benchmark.
对于简单的智能体,应对 1-3 个评估集进行约 30 次评估。对于更复杂的智能体,我们建议您将评估量至少增加一倍。
评估的次数取决于:
- 智能体复杂性
- 输入参数的数量
- 输出结构的复杂性
- 工具使用模式
- 决策分支
- 输入
- 可能的输入范围:数据类型、值范围、可选字段
- 边缘用例
- 使用模式
- 常见用例
- 不同的角色
- 错误情况
评估集
按评估集对评估进行分组,有助于更好地整理评估。例如,您可以查看:
- 一个评估集用于完整输出评估
- 另一个评估集用于边缘用例
- 另一个评估集用于处理拼写错误。
覆盖原则
- 逻辑覆盖:制定输入组合、边缘用例和边界条件。
- 冗余管理:应对每个逻辑等效用例进行 3-5 次评估。
- 质量胜于数量:更多的评估次数并不总是意味着更好的结果。应专注于有意义的测试。
何时创建评估
请在参数稳定或完整后创建评估。这也意味着您的用例已经建立,并且提示、工具和上下文已经完成。如果您修改了参数,则需要相应地调整评估。为了最大限度地减少额外工作量,最好从用例定义明确的稳定智能体开始。您可以在同一组织内的智能体之间或在不同组织的智能体之间导出和导入评估集。只要完成智能体设计,您就可以根据需要移动评估,无需从头开始重新创建。