agents
latest
false
智能体用户指南
上次更新日期 2026年5月4日
评估有助于确保您的对话智能体在各种对话路径中表现可靠。 此页面介绍如何使用调试聊天来测试您的智能体,创建评估集,并运行自动化测试。
调试聊天
调试聊天提供实时测试环境,您可以在其中与智能体交互并检查其行为。
启动调试会话
- 在 Studio Web 中,打开您的对话智能体。
- 选择“调试”,打开聊天界面。
- 发送消息,测试智能体的响应。

查看执行追踪记录
历史记录面板显示智能体执行的实时详细信息:
- LLM 调用:发送给模型的提示词和收到的响应。
- 工具调用:调用了哪些工具,包括参数和输出。
展开任一步骤即可查看完整详细信息,包括令牌计数和延迟。

查看引文
当您的智能体使用上下文锚定时,引文会在响应中显示哪些文档为答案提供了依据。
- 在智能体的响应中找到引文标记(通常为带有编号的引用)。
- 选择引文以查看来源文档和相关摘录。
- 验证引文是否为智能体的响应提供准确支持。

将对话添加到评估集
成功完成测试交互后,将其保存,用于进行自动化测试:
- 在“聊天”选项卡中,选择“添加到评估集”。
- 选择现有评估集或新建评估集。
保存的对话将包含:
- 对话历史记录:对话框中先前的所有轮次。
- 当前用户消息:用户的最新输入。
- 预期智能体响应:智能体的实际响应(您可以编辑)。
评估集
评估集是测试用例的集合,用于验证智能体的行为。评估集同时支持单轮和多轮测试场景。
有关详细的评估指导,请参阅“智能体评估”
单轮评估
单轮评估测试独立的问答对,不会评估对话历史记录。单轮评估是测试对话中第一个提示的评估测试。
单轮评估适用于以下情况:
- 测试特定的知识检索。
- 针对不同意图对工具的选择进行验证。
- 检查响应格式和语气。
示例:
| 用户消息 | 预期行为 |
|---|---|
| “我们在美国有多少假期?” | 返回正确的计数,引用策略文档 |
| “安排明天下午 2 点与 John 开会” | 使用正确的参数调用日历工具 |
多轮评估
多轮评估测试智能体如何处理对话上下文和后续问题。多轮评估是被测试的提示词基于先前对话的评估测试。
多轮评估适用于以下情况:
- 在各轮次中测试上下文保留情况。
- 验证代词分辨能力(“它”、“那个”、“相同的”)。
- 检查对话连贯性和条理性。
示例:
| 轮次 | 消息 | 预期行为 |
|---|---|---|
| 1 | “什么是 PTO 策略?” | 返回 PTO 策略总结 |
| 2 | “如何申请休假?” | 引用 PTO 上下文,说明申请流程 |
| 3 | “我可以通过电子邮件做这件事情吗?” | 理解“这件事情”指的是申请休假 |
创建评估测试
来自调试聊天
- 在“调试聊天”中运行对话。
- 在“聊天”面板中选择“添加到评估集”。
- 对话交流将作为评估测试添加到您指定的评估集中。
使用对话构建器
对话构建器用于创建或编辑多轮测试用例:
- 在 Studio Web 中为您的智能体选择“评估集”。
- 选择评估集或新建一个评估集。如果这些选项处于禁用状态,请确保您未处于调试模式。
- 选择“添加到集”或编辑现有测试。
- 对话构建器用于:
- 添加对话历史记录轮次。
- 定义当前用户消息。
- 使用输出设置来定义断言
- 为确定性评估器和基于 LLM-as-a-judge 的评估器指定预期智能体响应。
- 为基于轨迹的评估器指定“行为和输出说明”。

工具模拟
模拟让您无需执行真实的工具端点即可测试智能体行为。对于每个评估测试,您可以指定工具是否应实际执行或模拟其执行。
模拟可增强智能体评估效果,具有以下特性:
- 安全的测试:避免调用真实 API 或服务时出现意外副作用。
- 更快的执行:避免网络延迟和外部服务延迟。
- 经济高效的运行:在迭代测试期间降低 API 成本。
- 可重现性:通过控制工具输出,获得一致的结果。
您可以为每个评估测试配置模拟行为:
- 打开评估集。
- 选择要编辑的测试用例。
- 在测试配置中,指定哪些工具应模拟执行。
- 为每个工具定义预期模拟输出。
使用自然语言生成测试
使用 Autopilot,根据描述生成评估测试:
- 在“评估集”屏幕中,选择“创建”,然后选择“生成新的评估集”。
- 使用自然语言描述您要测试的场景。
- 查看和优化生成的测试用例。
提示示例:
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
备注:
Autopilot 生成的评估测试会自动使用基于轨迹的评估。

运行评估
运行单个测试
- 从您的评估集中选择测试用例。
- 选择“评估选定项”。
- 审核结果,将实际输出与预期输出进行比较。
运行批量评估
- 转到“评估集”。
- 在所需的评估集上选择“运行”,执行所有测试。
- 查看通过率/失败率显示结果。

使用不同模型进行测试
对不同的模型运行相同的评估集,以比较性能:
- 在评估集中,选择“评估设置”,以添加其他目标模型。
- 运行评估。
- 比较不同模型的结果,以确定最适合您用例的模型。
这有助于您了解:
- 哪些模型可在您的特定场景中达到最佳性能。
- 在响应质量和延迟之间进行权衡。
- 选择不同模型对成本产生的影响。
评估指标
评估从多个维度评估智能体行为:
| 指标 | 描述 |
|---|---|
| 响应准确性 | 响应是否包含正确的信息? |
| 工具选择 | 智能体是否选择了适当的工具? |
| 引文质量 | 引文是否相关且准确? |
| 语气和格式 | 响应是否与预期样式相符? |
| 上下文保留 | 智能体是否在各个轮次中保留了上下文? |
评估最佳实践
同时测试正常路径和异常路径
请勿只测试理想场景。应涵盖:
- 模糊问题
- 超出范围的请求
- 边缘用例和错误条件
- 多语言输入(如果支持)
创建代表性测试套件
构建反映真实使用模式的评估集:
- 分析生产环境中常见的用户查询
- 包含同一问题的变体
- 测试不同的用户角色和沟通风格
根据结果进行迭代
利用失败的评估结果来改进您的智能体:
- 识别失败测试中的模式。
- 更新系统提示词或工具配置。
- 重新运行评估以验证改进。
- 为发现的边缘用例添加新测试。