agents
latest
false
- 入门指南
- Studio Web 中的 UiPath 智能体
- UiPath 编码智能体
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。

智能体用户指南
上次更新日期 2026年3月13日
评估对话智能体
评估有助于确保您的对话智能体在不同的对话路径中表现可靠。本页介绍如何使用调试聊天测试智能体、创建评估集以及运行自动化测试。
调试聊天
调试聊天提供了一个实时测试环境,您可以在其中与智能体交互并检查其行为。
启动调试会话
- 在 Studio Web 中,打开您的对话智能体。
- 选择“调试”以打开聊天界面。
- 发送消息以测试智能体的响应。

查看执行追踪
历史记录面板显示智能体执行的实时详细信息:
- LLM 调用:发送到模型的提示词和收到的响应。
- 工具调用:调用了哪些工具,以及参数和输出。
展开任何步骤以查看完整的详细信息,包括令牌计数和延迟。

查看引文
当您的智能体使用上下文基础时,响应中会显示引文,显示哪些文档为答案提供了依据。
- 在智能体响应(通常是编号的参考文献)中查找引文标记。
- 选择引文以查看源文档和相关摘录。
- 验证引文是否准确支持智能体的响应。

向评估集添加对话
测试交互成功后,请将其保存以进行自动化测试:
- 在“聊天”选项卡中,选择“添加到评估集” 。
- 选择现有评估集或创建新评估集。
对话保存方式为:
- “对话历史记录” :对话中之前的所有对话。
- 当前用户消息:用户的最新输入。
- 预期智能体响应:智能体的实际响应(您可以编辑)。
评估集
评估集是用于验证智能体行为的测试用例的集合。它们同时支持单轮和多轮测试场景。
有关详细的评估指导,请参阅“智能体评估”
单轮评估
单轮评估可测试孤立的问答对,没有对话历史记录。它们是评估测试,您可以在其中测试对话中的第一个提示词。
将单轮评估用于以下用途:
- 测试特定的知识检索。
- 正在验证针对不同意图的工具选择。
- 检查回复的格式和语气。
示例:
| 用户消息 | 预期行为 |
|---|---|
| “美国有多少假期?” | 返回正确的计数,并引用策略文档 |
| “安排在明天下午 2 点与 John 开会” | 使用正确的参数调用日历工具 |
多轮评估
多轮评估用于测试智能体处理对话上下文和后续问题的方式。这些是评估测试,其中已测试的提示词跟在上一个对话之后。
将多轮评估用于以下目的:
- 测试各轮上下文保留情况。
- 正在验证代词解析(“it”、“那个”、“the相同”)。
- 检查对话的流畅性和连贯性。
示例:
| 转向 | 消息 | 预期行为 |
|---|---|---|
| 1 | “PTO 政策是什么?” | 返回 PTO 策略摘要 |
| 2 | “如何请假?” | 引用 PTO 上下文,解释请求流程 |
| 3 | “我可以通过电子邮件与您联系吗?” | 理解“那个”指的是请假 |
创建评估测试
来自调试聊天
- 在“调试聊天”中运行对话。
- 从“聊天”面板中选择“添加到评估集” 。
- 对话交换将作为评估测试添加到指定的评估集中。
使用对话构建器
对话构建器可用于创建或编辑多轮测试用例:
- 在 Studio Web 中为您的智能体选择评估集。
- 选择一个评估集或创建一个新评估集。如果已禁用这些选项,请确保您未处于调试模式。
- 选择“添加”以设置或编辑现有测试。
- 使用对话构建器执行以下操作:
- 添加对话历史记录轮次。
- 定义当前用户消息。
- 使用“输出设置”来定义断言
- 为确定性和基于 LLM-as-a-judge 的评估程序指定预期智能体响应。
- 为基于轨迹的评估程序指定“行为和输出说明”。

工具模拟
通过模拟,您可以在不执行真实工具端点的情况下测试智能体的行为。对于每个评估测试,您可以指定工具是应实际执行还是模拟执行。
模拟通过以下方式增强智能体评估:
- 安全测试: 避免因调用真实的 API 或服务而产生意外的副作用。
- 更快的执行:跳过网络延迟和外部服务延迟。
- 具有成本效益的运行: 降低迭代测试期间的 API 成本。
- 可重复性: 通过控制工具输出来获得一致的结果。
您可以为每个评估测试配置模拟行为:
- 打开评估集。
- 选择要编辑的测试用例。
- 在测试配置中,指定应模拟执行的工具。
- 定义每个工具的预期模拟输出。
使用自然语言生成测试
使用 Autopilot 根据描述生成评估测试:
- 在“评估集”屏幕中,选择“创建” ,然后选择 “生成新的评估集” 。
- 用自然语言描述要测试的场景。
- 审核并优化生成的测试用例。
提示示例:
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
Generate test cases for an HR assistant that:
- Answers questions about vacation policy
- Handles requests to schedule meetings
- Escalates when asked about salary information
- Responds appropriately when the user is frustrated
备注:
Autopilot 生成的评估测试会自动使用基于轨迹的评估。

运行评估
运行单个测试
- 从评估集中选择一个测试用例。
- 选择“评估所选对象” 。
- 查看结果,将实际输出与预期输出进行比较。
运行批量评估
- 转到“评估集” 。
- 在所需的评估集上选择运行以执行所有测试。
- 查看显示通过/失败率的结果。

使用不同模型进行测试
针对不同的模型运行相同的评估集以比较性能:
- 在评估集中,选择“评估设置”以添加其他目标模型。
- 运行评估。
- 比较不同模型的结果,以确定最适合您的用例的模型。
这有助于您了解:
- 哪些模型最适合您的特定场景。
- 响应质量和延迟之间的权衡。
- 不同模型选择对成本的影响。
评估指标
评估从多个维度评估智能体行为:
| 指标 | 描述 |
|---|---|
| 响应准确性 | 响应是否包含正确的信息? |
| 工具选择 | 智能体是否选择了合适的工具? |
| 引文质量 | 引文是否相关且准确? |
| 语气和格式 | 回复是否符合预期样式? |
| 上下文保留 | 智能体是否会轮流维护上下文? |
评估最佳实践
测试满意的路径和不满意的路径
不要只测试理想场景。包括:
- 模棱两可的问题
- 超出范围的请求
- 边缘用例和错误条件
- 多语言输入(如果支持)
创建代表性测试套件
构建反映实际使用模式的评估集:
- 分析生产中常见的用户查询
- 包括同一问题的变体
- 测试不同的用户角色和通信方式
根据结果进行迭代
利用评估失败的情况来改进您的智能体:
- 识别失败测试中的模式。
- 更新系统提示或工具配置。
- 重新运行评估以验证改进情况。
- 为发现的边缘用例添加新测试。