- 入门指南
- Studio Web 中的 UiPath 智能体
- Agent Builder 中的 UiPath 智能体
- UiPath 编码智能体

智能体用户指南
当您构建智能体时,您希望它稳定可靠,能够相信它可以始终如一地提供正确的输出。评估有助于您确定智能体的性能是否出色,或者是否需要改进。
术语
评估是输入与对输出做出的断言组成的对。断言是一个定义的条件或规则,用于评估智能体的输出是否符合预期输出。
评估集是评估的逻辑分组。
评估结果是完成运行的评估的追踪记录,用于评估智能体的性能。在运行评估的过程中,会测量智能体的准确性、效率和决策能力,并根据智能体的性能进行评分。评估分数根据特定评估中的断言确定智能体的性能。分数范围为 0 到 100。运行失败的评估需要重新运行并排除故障。
在创建评估之前,必须先测试您的智能体,以检验其输出是否正确。如果智能体正确执行,则可以根据正确的追踪记录创建评估。如果智能体未正确执行且输出不正确,您可以从头开始创建评估。
根据智能体试运行情况和追踪记录创建评估
- 设计智能体之后,请在 Playground 窗口中添加试运行所需的输入,然后选择运行。
- 一旦运行完成且输出正确,请选择添加到评估集按钮。
如果智能体的输出不正确,您可以:
- 优化提示:调整提示并重新运行智能体,直到输出正确为止。
- 根据错误输出创建评估:根据错误输出生成评估,然后对其进行手动编辑,以符合预期结果。
您也可以在试运行后转到追踪选项卡,查看运行的详细信息。选择查看追踪记录,然后选择添加到评估集。
- 选择“创建评估集”并为该集选择一个名称。选中复选标记,以确认您的操作。
新评估集现已列在选择评估集窗口中。选择此评估集,然后选择下一步,转到创建评估窗口。您将在此处创建评估集中的第一个评估。
- 在创建评估窗口中,输入和预期输出字段已经预填了您为智能体提示创建的输入和输出参数。如果使用默认的 LLM-as-a-Judge 断言类型,请添加一个评估提示,然后选择创建以完成评估。
从零开始创建评估
- 设计智能体之后,请转到评估选项卡并选择创建评估集。
您还可以选择导入,以使用来自其他智能体评估的现有 JSON 数据。
- 为您的新评估集选择一个名称,然后选择创建。
此时将创建评估集,并显示创建评估窗口。
- 在此评估集中创建第一个评估:
- 配置输入字段。这些字段来自您为提示创建的输入参数。
- 配置预期输出。预期输出来自您创建的输出参数。
- 在评估设置中,配置以下字段:
- 选择目标输出字段:
-
确定根级目标(* 全部):评估整个输出。
-
确定特定字段的目标:评估特定一级字段。使用下拉菜单选择一个字段。列出的输出字段来自您为系统提示定义的输出参数。
-
- 选择断言类型。它表示评估方法:
- LLM-as-Judge(默认方法)
- 确定根输出目标时,建议将此方法作为默认方法。
- 对复杂输出提供灵活评估。
- 除了精确匹配之外,还可以评估质量和正确性。
- 最适用于评估推理、自然语言响应或复杂的结构化输出。
- 等于
- 如果希望获得完全匹配,建议选择此类型。
- 当您严格定义了输出要求时,此类型最有效。
- 适用于复杂对象,但最适用于:
- 布尔值(真/假)
- 特定数值
- 精确的字符串匹配
- 基元数组。
- LLM-as-Judge(默认方法)
- 选择目标输出字段:
- 选择创建,以保存新评估。
精心组织您的评估提示
结构完整的输出可以使评估更加可靠。这就是最好有结构化输出的原因——它可以确保一致性并简化比较流程。
请以评估专家的身份分析这些 JSON 内容的语义相似性,并给予评分(范围为 0-100)。请专注于比较相应字段的含义和上下文等效性,考虑有效的替代表达式、同义词以及语言中的合理变化,同时保持较高的准确性和完整性标准。请为您的评分做出解释,简要说明您给出该分数的原因。
预期输出:{{ExpectedOutput}}
实际输出:{{ActualOutput}}
评估次数
对于简单的智能体,应对 1-3 个评估集进行大约 30 次评估。对于更复杂的智能体,建议将次数至少增加一倍或以上。
评估的次数取决于:
- 智能体复杂性
- 输入参数的数量
- 输出结构的复杂性
- 工具使用模式
- 决策分支
- 输入
- 可能的输入范围:数据类型、值范围、可选字段
- 边缘用例
- 使用模式
- 常见用例
- 不同的角色
- 错误情况
评估集
按评估集对评估进行分组,有助于更好地整理评估。例如,您可以查看:
- 一个评估集用于完整输出评估
- 另一个评估集用于边缘用例
- 另一个评估集用于处理拼写错误。
覆盖原则
- 逻辑覆盖:制定输入组合、边缘用例和边界条件。
- 冗余管理:应对每个逻辑等效用例进行 3-5 次评估。
- 质量胜于数量:更多的评估次数并不总是意味着更好的结果。应专注于有意义的测试。
何时创建评估
请在参数稳定或完整后创建评估。这也意味着您的用例已经建立,并且提示、工具和上下文基础索引已经完成。
如果您修改了参数,则需要相应地调整评估。为了最大限度地减少额外工作量,最好从用例定义明确的稳定智能体开始。
您可以在同一组织内的智能体之间或在不同组织的智能体之间导出和导入评估集。只要完成智能体设计,您就可以根据需要移动评估,无需从头开始重新创建。