agents

latest

false

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

智能体用户指南

上次更新日期 2026年5月21日

适用平台：

评估对话智能体

评估有助于确保您的对话智能体在各种对话路径中表现可靠。此页面介绍如何使用调试聊天来测试您的智能体，创建评估集，并运行自动化测试。

调试聊天

调试聊天提供实时测试环境，您可以在其中与智能体交互并检查其行为。

启动调试会话

在 Studio Web 中，打开您的对话智能体。
选择“调试”，打开聊天界面。
发送消息，测试智能体的响应。

查看执行追踪记录

历史记录面板显示智能体执行的实时详细信息：

LLM 调用：发送给模型的提示词和收到的响应。
工具调用：调用了哪些工具，包括参数和输出。

展开任一步骤即可查看完整详细信息，包括令牌计数和延迟。

查看引文

当您的智能体使用上下文锚定时，引文会在响应中显示哪些文档为答案提供了依据。

在智能体的响应中找到引文标记（通常为带有编号的引用）。
选择引文以查看来源文档和相关摘录。
验证引文是否为智能体的响应提供准确支持。

将对话添加到评估集

成功完成测试交互后，将其保存，用于进行自动化测试：

在“聊天”选项卡中，选择“添加到评估集”。
选择现有评估集或新建评估集。

保存的对话将包含：

对话历史记录：对话框中先前的所有轮次。
当前用户消息：用户的最新输入。
预期智能体响应：智能体的实际响应（您可以编辑）。

评估集

评估集是测试用例的集合，用于验证智能体的行为。评估集同时支持单轮和多轮测试场景。

有关详细的评估指导，请参阅“智能体评估”

单轮评估

单轮评估测试独立的问答对，不会评估对话历史记录。单轮评估是测试对话中第一个提示的评估测试。

Use single-turn evaluations for

测试特定的知识检索。
针对不同意图对工具的选择进行验证。
检查响应格式和语气。

示例

用户消息	预期行为
“我们在美国有多少假期？”	返回正确的计数，引用策略文档
“安排明天下午 2 点与 John 开会”	使用正确的参数调用日历工具

多轮评估

多轮评估测试智能体如何处理对话上下文和后续问题。多轮评估是被测试的提示词基于先前对话的评估测试。

Use multi-turn evaluations for

在各轮次中测试上下文保留情况。
验证代词分辨能力（“它”、“那个”、“相同的”）。
检查对话连贯性和条理性。

示例

轮次	消息	预期行为
1	“什么是 PTO 策略？”	返回 PTO 策略总结
2	“如何申请休假？”	引用 PTO 上下文，说明申请流程
3	“我可以通过电子邮件做这件事情吗？”	理解“这件事情”指的是申请休假

创建评估测试

来自调试聊天

在“调试聊天”中运行对话。
在“聊天”面板中选择“添加到评估集”。
对话交流将作为评估测试添加到您指定的评估集中。

使用对话构建器

对话构建器用于创建或编辑多轮测试用例：

在 Studio Web 中为您的智能体选择“评估集”。
选择评估集或新建一个评估集。如果这些选项处于禁用状态，请确保您未处于调试模式。
选择“添加到集”或编辑现有测试。
对话构建器用于：
- 添加对话历史记录轮次。
- 定义当前用户消息。
使用输出设置来定义断言
- 为确定性评估器和基于 LLM-as-a-judge 的评估器指定预期智能体响应。
- 为基于轨迹的评估器指定“行为和输出说明”。

工具模拟

模拟让您无需执行真实的工具端点即可测试智能体行为。对于每个评估测试，您可以指定工具是否应实际执行或模拟其执行。

模拟可增强智能体评估效果，具有以下特性：

安全的测试：避免调用真实 API 或服务时出现意外副作用。
更快的执行：避免网络延迟和外部服务延迟。
经济高效的运行：在迭代测试期间降低 API 成本。
可重现性：通过控制工具输出，获得一致的结果。

您可以为每个评估测试配置模拟行为：

打开评估集。
选择要编辑的测试用例。
在测试配置中，指定哪些工具应模拟执行。
为每个工具定义预期模拟输出。

使用自然语言生成测试

使用 Autopilot，根据描述生成评估测试：

在“评估集”屏幕中，选择“创建”，然后选择“生成新的评估集”。
使用自然语言描述您要测试的场景。
查看和优化生成的测试用例。

提示示例：

Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated

备注：

Autopilot 生成的评估测试会自动使用基于轨迹的评估。

运行评估

运行单个测试

从您的评估集中选择测试用例。
选择“评估选定项”。
审核结果，将实际输出与预期输出进行比较。

运行批量评估

转到“评估集”。
在所需的评估集上选择“运行”，执行所有测试。
查看通过率/失败率显示结果。

使用不同模型进行测试

对不同的模型运行相同的评估集，以比较性能：

在评估集中，选择“评估设置”，以添加其他目标模型。
运行评估。
比较不同模型的结果，以确定最适合您用例的模型。

这有助于您了解：

哪些模型可在您的特定场景中达到最佳性能。
在响应质量和延迟之间进行权衡。
选择不同模型对成本产生的影响。

评估指标

评估从多个维度评估智能体行为：

指标	描述
响应准确性	响应是否包含正确的信息？
工具选择	智能体是否选择了适当的工具？
引文质量	引文是否相关且准确？
语气和格式	响应是否与预期样式相符？
上下文保留	智能体是否在各个轮次中保留了上下文？

评估最佳实践

同时测试正常路径和异常路径

请勿只测试理想场景。应涵盖：

模糊问题
超出范围的请求
边缘用例和错误条件
多语言输入（如果支持）

创建代表性测试套件

构建反映真实使用模式的评估集：

分析生产环境中常见的用户查询
包含同一问题的变体
测试不同的用户角色和沟通风格

根据结果进行迭代

利用失败的评估结果来改进您的智能体：

识别失败测试中的模式。
更新系统提示词或工具配置。
重新运行评估以验证改进。
为发现的边缘用例添加新测试。

后续步骤

部署：发布经过测试的智能体
可观察性：监控生产性能
智能体评估：详细的评估框架文档

此页面有帮助吗？

前一个设计对话智能体

下一个部署对话智能体

智能体用户指南

调试聊天​

启动调试会话​

查看执行追踪记录​

查看引文​

将对话添加到评估集​

评估集​

单轮评估​

Use single-turn evaluations for​

示例​

多轮评估​

Use multi-turn evaluations for​

示例​

创建评估测试​

来自调试聊天​

使用对话构建器​

工具模拟​

使用自然语言生成测试​

运行评估​

运行单个测试​

运行批量评估​

使用不同模型进行测试​

评估指标​

评估最佳实践​

同时测试正常路径和异常路径​

创建代表性测试套件​

根据结果进行迭代​

后续步骤​