agents
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

智能体用户指南

上次更新日期 2026年3月13日

评估对话智能体

评估有助于确保您的对话智能体在不同的对话路径中表现可靠。本页介绍如何使用调试聊天测试智能体、创建评估集以及运行自动化测试。

调试聊天

调试聊天提供了一个实时测试环境,您可以在其中与智能体交互并检查其行为。

启动调试会话

  1. 在 Studio Web 中,打开您的对话智能体。
  2. 选择“调试”以打开聊天界面。
  3. 发送消息以测试智能体的响应。

Debug 聊天界面

查看执行追踪

历史记录面板显示智能体执行的实时详细信息:

  • LLM 调用:发送到模型的提示词和收到的响应。
  • 工具调用:调用了哪些工具,以及参数和输出。

展开任何步骤以查看完整的详细信息,包括令牌计数和延迟。

执行追踪面板

查看引文

当您的智能体使用上下文基础时,响应中会显示引文,显示哪些文档为答案提供了依据。

  1. 在智能体响应(通常是编号的参考文献)中查找引文标记。
  2. 选择引文以查看源文档和相关摘录。
  3. 验证引文是否准确支持智能体的响应。

引文视图

向评估集添加对话

测试交互成功后,请将其保存以进行自动化测试:

  1. “聊天”选项卡中,选择“添加到评估集”
  2. 选择现有评估集或创建新评估集。

对话保存方式为:

  • “对话历史记录” :对话中之前的所有对话。
  • 当前用户消息:用户的最新输入。
  • 预期智能体响应:智能体的实际响应(您可以编辑)。

评估集

评估集是用于验证智能体行为的测试用例的集合。它们同时支持单轮和多轮测试场景。

有关详细的评估指导,请参阅“智能体评估”

单轮评估

单轮评估可测试孤立的问答对,没有对话历史记录。它们是评估测试,您可以在其中测试对话中的第一个提示词。

将单轮评估用于以下用途:

  • 测试特定的知识检索。
  • 正在验证针对不同意图的工具选择。
  • 检查回复的格式和语气。

示例:

用户消息预期行为
“美国有多少假期?”返回正确的计数,并引用策略文档
“安排在明天下午 2 点与 John 开会”使用正确的参数调用日历工具

多轮评估

多轮评估用于测试智能体处理对话上下文和后续问题的方式。这些是评估测试,其中已测试的提示词跟在上一个对话之后。

将多轮评估用于以下目的:

  • 测试各轮上下文保留情况。
  • 正在验证代词解析(“it”、“那个”、“the相同”)。
  • 检查对话的流畅性和连贯性。

示例:

转向消息预期行为
1“PTO 政策是什么?”返回 PTO 策略摘要
2“如何请假?”引用 PTO 上下文,解释请求流程
3“我可以通过电子邮件与您联系吗?”理解“那个”指的是请假

创建评估测试

来自调试聊天
  1. “调试聊天”中运行对话。
  2. “聊天”面板中选择“添加到评估集”
  3. 对话交换将作为评估测试添加到指定的评估集中。
使用对话构建器

对话构建器可用于创建或编辑多轮测试用例:

  1. 在 Studio Web 中为您的智能体选择评估集
  2. 选择一个评估集或创建一个新评估集。如果已禁用这些选项,请确保您未处于调试模式。
  3. 选择“添加”以设置或编辑现有测试。
  4. 使用对话构建器执行以下操作:
    • 添加对话历史记录轮次。
    • 定义当前用户消息。
  5. 使用“输出设置”来定义断言
    • 为确定性和基于 LLM-as-a-judge 的评估程序指定预期智能体响应。
    • 为基于轨迹的评估程序指定“行为和输出说明”。

Conversation Builder

工具模拟

通过模拟,您可以在不执行真实工具端点的情况下测试智能体的行为。对于每个评估测试,您可以指定工具是应实际执行还是模拟执行。

模拟通过以下方式增强智能体评估:

  • 安全测试: 避免因调用真实的 API 或服务而产生意外的副作用。
  • 更快的执行:跳过网络延迟和外部服务延迟。
  • 具有成本效益的运行: 降低迭代测试期间的 API 成本。
  • 可重复性: 通过控制工具输出来获得一致的结果。

您可以为每个评估测试配置模拟行为:

  1. 打开评估集。
  2. 选择要编辑的测试用例。
  3. 在测试配置中,指定应模拟执行的工具。
  4. 定义每个工具的预期模拟输出。
使用自然语言生成测试

使用 Autopilot 根据描述生成评估测试:

  1. 在“评估集”屏幕中,选择“创建” ,然后选择 “生成新的评估集”
  2. 用自然语言描述要测试的场景。
  3. 审核并优化生成的测试用例。

提示示例:

Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
备注:

Autopilot 生成的评估测试会自动使用基于轨迹的评估。

生成测试对话框

运行评估

运行单个测试

  1. 从评估集中选择一个测试用例。
  2. 选择“评估所选对象”
  3. 查看结果,将实际输出与预期输出进行比较。

运行批量评估

  1. 转到“评估集”
  2. 在所需的评估集上选择运行以执行所有测试。
  3. 查看显示通过/失败率的结果。

Evaluation results

使用不同模型进行测试

针对不同的模型运行相同的评估集以比较性能:

  1. 在评估集中,选择“评估设置”以添加其他目标模型。
  2. 运行评估。
  3. 比较不同模型的结果,以确定最适合您的用例的模型。

这有助于您了解:

  • 哪些模型最适合您的特定场景。
  • 响应质量和延迟之间的权衡。
  • 不同模型选择对成本的影响。

评估指标

评估从多个维度评估智能体行为:

指标描述
响应准确性响应是否包含正确的信息?
工具选择智能体是否选择了合适的工具?
引文质量引文是否相关且准确?
语气和格式回复是否符合预期样式?
上下文保留智能体是否会轮流维护上下文?

评估最佳实践

测试满意的路径和不满意的路径

不要只测试理想场景。包括:

  • 模棱两可的问题
  • 超出范围的请求
  • 边缘用例和错误条件
  • 多语言输入(如果支持)

创建代表性测试套件

构建反映实际使用模式的评估集:

  • 分析生产中常见的用户查询
  • 包括同一问题的变体
  • 测试不同的用户角色和通信方式

根据结果进行迭代

利用评估失败的情况来改进您的智能体:

  1. 识别失败测试中的模式。
  2. 更新系统提示或工具配置。
  3. 重新运行评估以验证改进情况。
  4. 为发现的边缘用例添加新测试。

后续步骤

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新