UiPath Documentation
agents
latest
false

智能体用户指南

上次更新日期 2026年5月4日

评估对话智能体

评估有助于确保您的对话智能体在各种对话路径中表现可靠。 此页面介绍如何使用调试聊天来测试您的智能体,创建评估集,并运行自动化测试。

调试聊天

调试聊天提供实时测试环境,您可以在其中与智能体交互并检查其行为。

启动调试会话

  1. 在 Studio Web 中,打开您的对话智能体。
  2. 选择“调试”,打开聊天界面。
  3. 发送消息,测试智能体的响应。

Debug 聊天界面

查看执行追踪记录

历史记录面板显示智能体执行的实时详细信息:

  • LLM 调用:发送给模型的提示词和收到的响应。
  • 工具调用:调用了哪些工具,包括参数和输出。

展开任一步骤即可查看完整详细信息,包括令牌计数和延迟。

执行追踪面板

查看引文

当您的智能体使用上下文锚定时,引文会在响应中显示哪些文档为答案提供了依据。

  1. 在智能体的响应中找到引文标记(通常为带有编号的引用)。
  2. 选择引文以查看来源文档和相关摘录。
  3. 验证引文是否为智能体的响应提供准确支持。

引文视图

将对话添加到评估集

成功完成测试交互后,将其保存,用于进行自动化测试:

  1. 在“聊天”选项卡中,选择“添加到评估集”。
  2. 选择现有评估集或新建评估集。

保存的对话将包含:

  • 对话历史记录:对话框中先前的所有轮次。
  • 当前用户消息:用户的最新输入。
  • 预期智能体响应:智能体的实际响应(您可以编辑)。

评估集

评估集是测试用例的集合,用于验证智能体的行为。评估集同时支持单轮和多轮测试场景。

有关详细的评估指导,请参阅“智能体评估

单轮评估

单轮评估测试独立的问答对,不会评估对话历史记录。单轮评估是测试对话中第一个提示的评估测试。

单轮评估适用于以下情况:

  • 测试特定的知识检索。
  • 针对不同意图对工具的选择进行验证。
  • 检查响应格式和语气。

示例:

用户消息预期行为
“我们在美国有多少假期?”返回正确的计数,引用策略文档
“安排明天下午 2 点与 John 开会”使用正确的参数调用日历工具

多轮评估

多轮评估测试智能体如何处理对话上下文和后续问题。多轮评估是被测试的提示词基于先前对话的评估测试。

多轮评估适用于以下情况:

  • 在各轮次中测试上下文保留情况。
  • 验证代词分辨能力(“它”、“那个”、“相同的”)。
  • 检查对话连贯性和条理性。

示例:

轮次消息预期行为
1“什么是 PTO 策略?”返回 PTO 策略总结
2“如何申请休假?”引用 PTO 上下文,说明申请流程
3“我可以通过电子邮件做这件事情吗?”理解“这件事情”指的是申请休假

创建评估测试

来自调试聊天
  1. 在“调试聊天”中运行对话。
  2. 在“聊天”面板中选择“添加到评估集”。
  3. 对话交流将作为评估测试添加到您指定的评估集中。
使用对话构建器

对话构建器用于创建或编辑多轮测试用例:

  1. 在 Studio Web 中为您的智能体选择“评估集”。
  2. 选择评估集或新建一个评估集。如果这些选项处于禁用状态,请确保您未处于调试模式。
  3. 选择“添加到集”或编辑现有测试。
  4. 对话构建器用于:
    • 添加对话历史记录轮次。
    • 定义当前用户消息。
  5. 使用输出设置来定义断言
    • 为确定性评估器和基于 LLM-as-a-judge 的评估器指定预期智能体响应。
    • 为基于轨迹的评估器指定“行为和输出说明”。

对话构建器

工具模拟

模拟让您无需执行真实的工具端点即可测试智能体行为。对于每个评估测试,您可以指定工具是否应实际执行或模拟其执行。

模拟可增强智能体评估效果,具有以下特性:

  • 安全的测试:避免调用真实 API 或服务时出现意外副作用。
  • 更快的执行:避免网络延迟和外部服务延迟。
  • 经济高效的运行:在迭代测试期间降低 API 成本。
  • 可重现性:通过控制工具输出,获得一致的结果。

您可以为每个评估测试配置模拟行为:

  1. 打开评估集。
  2. 选择要编辑的测试用例。
  3. 在测试配置中,指定哪些工具应模拟执行。
  4. 为每个工具定义预期模拟输出。
使用自然语言生成测试

使用 Autopilot,根据描述生成评估测试:

  1. 在“评估集”屏幕中,选择“创建”,然后选择“生成新的评估集”。
  2. 使用自然语言描述您要测试的场景。
  3. 查看和优化生成的测试用例。

提示示例:

Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
备注:

Autopilot 生成的评估测试会自动使用基于轨迹的评估。

“生成测试”对话框

运行评估

运行单个测试

  1. 从您的评估集中选择测试用例。
  2. 选择“评估选定项”。
  3. 审核结果,将实际输出与预期输出进行比较。

运行批量评估

  1. 转到“评估集”。
  2. 在所需的评估集上选择“运行”,执行所有测试。
  3. 查看通过率/失败率显示结果。

评估结果

使用不同模型进行测试

对不同的模型运行相同的评估集,以比较性能:

  1. 在评估集中,选择“评估设置”,以添加其他目标模型。
  2. 运行评估。
  3. 比较不同模型的结果,以确定最适合您用例的模型。

这有助于您了解:

  • 哪些模型可在您的特定场景中达到最佳性能。
  • 在响应质量和延迟之间进行权衡。
  • 选择不同模型对成本产生的影响。

评估指标

评估从多个维度评估智能体行为:

指标描述
响应准确性响应是否包含正确的信息?
工具选择智能体是否选择了适当的工具?
引文质量引文是否相关且准确?
语气和格式响应是否与预期样式相符?
上下文保留智能体是否在各个轮次中保留了上下文?

评估最佳实践

同时测试正常路径和异常路径

请勿只测试理想场景。应涵盖:

  • 模糊问题
  • 超出范围的请求
  • 边缘用例和错误条件
  • 多语言输入(如果支持)

创建代表性测试套件

构建反映真实使用模式的评估集:

  • 分析生产环境中常见的用户查询
  • 包含同一问题的变体
  • 测试不同的用户角色和沟通风格

根据结果进行迭代

利用失败的评估结果来改进您的智能体:

  1. 识别失败测试中的模式。
  2. 更新系统提示词或工具配置。
  3. 重新运行评估以验证改进。
  4. 为发现的边缘用例添加新测试。

后续步骤

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新