- 入门指南
- Studio Web 中的 UiPath 智能体
- UiPath 编码智能体
智能体用户指南
选择合适的模型可定义智能体在真实场景中的行为方式。模型会影响准确性、稳定性、速度和成本。
为智能体选择模型是一个迭代流程,而非一次性决策。您在设计期间选择初始模型,以便构建和测试智能体,稍后,在评估显示不同模型如何处理提示词、工具、数据和故障场景后,对该选择进行优化。评估通常会显示,成本较低的模型可达到与成本较高的选项相同的质量要求,或对于特定边缘用例,不同模型在可靠性方面表现更为出色。
本部分可帮助您理解模型设置,应用最佳实践,并运行为您的用例选择最有效且经济高效的模型所需的步骤。
了解模型设置
模型设置用于控制底层 AI 模型如何生成输出。两个设置对智能体性能影响最大:模型和温度。
模型选择会影响功能、延迟、成本和专属优势。不同模型在推理、编码或汇总等任务方面各有所长。要了解哪个模型适合智能体工作负载,请运行评估,通过实际提示词和场景对各模型表现进行比较,如下部分所述。
温度用于控制模型响应的随机性和创造力。典型范围包括:
- 低温 (0.0 - 0.3):响应更具确定性和聚焦性,更适合事实性任务。
- 中温 (0.4 - 0.7):兼顾创造力和一致性,适用于大多数对话型智能体。
- 高温 (0.8 - 2.0):响应更具创造性和多样性,更适合创意写作。
在设计期间从初始模型开始
在设计期间,选择大致适合智能体工作负载的模型。此初始模型将作为基准,用于构建提示词、集成工具以及测试流程。作为最佳实践,我们建议您从通用模型或低成本模型起步,并期望在评估后重新审视此选择。
保守设置温度
温度用于控制模型响应的确定性或可变性程度。在大多数企业智能体中,一致性比创造性更为重要。
- 低温将生成可重复的稳定输出
- 温度越高,可变性和创造性也随之提高
最佳实践:将温度 0.0 用于大多数面向生产的智能体。如果出现质量问题,请在提高温度之前先更改模型或提示词。
应谨慎地调整温度,并始终通过评估进行验证。
使用评估来验证和修改模型选择
评估是模型选择变得以证据为基础的关键环节。
首先,从可运行的智能体开始。在关键场景中使用不同的输入在调试模式下运行,以确认整个流程符合预期。智能体端到端工作后,请根据真实运行构建您的评估集,方法是直接从调试运行中使用添加到评估集,或下载 runtime 运行并将其导入评估集。
使用以下内容构建评估集:
- 典型用户输入
- 边缘用例
- 已知故障案例
避免仅依赖合成或自动生成的用例,这可能会高估实际性能。
配置不同的模型
在多个模型和配置中运行相同的评估集。在这个阶段,您可以决定质量差异是否足以支持成本、延迟或稳定性方面的差异。在不同配置下运行相同的场景,可以让这些取舍更加清晰可见。这很常见,预计会在审查评估结果后更改选定的模型。
要在评估集中配置和比较不同的模型设置:
-
从 Agent Builder 资源管理器面板中,选择评估集。
-
选择评估集。
-
Select the gear icon to open Evaluation settings.
-
在评估集属性面板中,添加多个温度和模型组合。例如:
- 温度 0.2,模型 A
- 温度 0.5,模型 A
- 温度 0.7,模型 A
- 温度 0.5,模型 B
每个组合都创建一个单独的评估运行,让您比较小的配置更改如何影响行为。
-
选择评估集,以运行所有配置。运行完成后,打开结果选项卡来比较结果。
比较模型并分析结果
为确保比较公平:
- 保持提示词、工具和上下文相同。
- 在评估集属性面板中添加多个模型和温度配置。
- 为每个配置运行相同的评估集。
添加到评估集的每个模型都将触发新的运行,您可以在“结果”表格中查看每次运行的结果。查看结果时,您不仅要查找分数最高,还要决定哪些取舍对您的智能体最重要。
查看评估结果,以了解每个配置的表现。查找:
- 评估程序分数:确定哪些设置可生成准确的高质量输出。
- 时间性能:比较不同配置的响应时间。
不要仅根据平均分数选择模型。在查看评估结果时,请考虑:
- 故障发生的位置和方式
- 场景间的一致性
- 延迟和执行时间
- 相对于质量收益的成本
如果分数稍低的模型明显更便宜、更稳定,则可能更可取。
建议的工作流
以下步骤总结了本节所述的核心流程。在为智能体选择和优化模型时,请使用它们作为快速参考:
- 在智能体设计期间从初始模型开始。
- 使用较低的温度,优先考虑一致性。
- 构建一个可运作的智能体并验证端到端行为。
- 从真实的智能体运行中创建评估集。
- 使用同一评估集比较多个模型。
- 选择始终满足质量标准且成本最低的模型。
- 当智能体发生演变或推出新模型时,重新运行评估。