UiPath Documentation
agents
2.2510
true

智能体用户指南

上次更新日期 2026年5月15日

为您的智能体选择最佳模型

选择合适的模型可定义智能体在真实场景中的行为方式。模型会影响准确性、稳定性、速度和成本。

为智能体选择模型是一个迭代流程,而非一次性决策。您在设计期间选择初始模型,以便构建和测试智能体,稍后,在评估显示不同模型如何处理提示词、工具、数据和故障场景后,对该选择进行优化。评估通常会显示,成本较低的模型可达到与成本较高的选项相同的质量要求,或对于特定边缘用例,不同模型在可靠性方面表现更为出色。

本部分可帮助您理解模型设置,应用最佳实践,并运行为您的用例选择最有效且经济高效的模型所需的步骤。

了解模型设置

模型设置用于控制底层 AI 模型如何生成输出。两个设置对智能体性能影响最大:模型温度

模型选择会影响功能、延迟、成本和专属优势。不同模型在推理、编码或汇总等任务方面各有所长。要了解哪个模型适合智能体工作负载,请运行评估,通过实际提示词和场景对各模型表现进行比较,如下部分所述。

温度用于控制模型响应的随机性和创造力。典型范围包括:

  • 低温 (0.0 - 0.3):响应更具确定性和聚焦性,更适合事实性任务。
  • 中温 (0.4 - 0.7):兼顾创造力和一致性,适用于大多数对话型智能体。
  • 高温 (0.8 - 2.0):响应更具创造性和多样性,更适合创意写作。

在设计期间从初始模型开始

在设计期间,选择大致适合智能体工作负载的模型。此初始模型将作为基准,用于构建提示词、集成工具以及测试流程。作为最佳实践,我们建议您从通用模型或低成本模型起步,并期望在评估后重新审视此选择。

保守设置温度

温度用于控制模型响应的确定性或可变性程度。在大多数企业智能体中,一致性比创造性更为重要。

  • 低温将生成可重复的稳定输出
  • 温度越高,可变性和创造性也随之提高
提示:

最佳实践:将温度 0.0 用于大多数面向生产的智能体。如果出现质量问题,请在提高温度之前先更改模型或提示词。

应谨慎地调整温度,并始终通过评估进行验证。

使用评估来验证和修改模型选择

评估是模型选择变得以证据为基础的关键环节。

首先,从可运行的智能体开始。在关键场景中使用不同的输入在调试模式下运行,以确认整个流程符合预期。智能体端到端工作后,请根据真实运行构建您的评估集,方法是直接从调试运行中使用添加到评估集,或下载 runtime 运行并将其导入评估集。

使用以下内容构建评估集:

  • 典型用户输入
  • 边缘用例
  • 已知故障案例

避免仅依赖合成或自动生成的用例,这可能会高估实际性能。

配置不同的模型

在多个模型和配置中运行相同的评估集。在这个阶段,您可以决定质量差异是否足以支持成本、延迟或稳定性方面的差异。在不同配置下运行相同的场景,可以让这些取舍更加清晰可见。这很常见,预计会在审查评估结果后更改选定的模型。

要在评估集中配置和比较不同的模型设置:

  1. 从 Agent Builder 资源管理器面板中,选择评估集

  2. 选择评估集。

  3. Select the gear icon to open Evaluation settings.

  4. 评估集属性面板中,添加多个温度和模型组合。例如:

    • 温度 0.2,模型 A
    • 温度 0.5,模型 A
    • 温度 0.7,模型 A
    • 温度 0.5,模型 B

    每个组合都创建一个单独的评估运行,让您比较小的配置更改如何影响行为。

  5. 选择评估集,以运行所有配置。运行完成后,打开结果选项卡来比较结果。

比较模型并分析结果

为确保比较公平:

  • 保持提示词、工具和上下文相同。
  • 评估集属性面板中添加多个模型和温度配置。
  • 为每个配置运行相同的评估集。

添加到评估集的每个模型都将触发新的运行,您可以在“结果”表格中查看每次运行的结果。查看结果时,您不仅要查找分数最高,还要决定哪些取舍对您的智能体最重要。

查看评估结果,以了解每个配置的表现。查找:

  • 评估程序分数:确定哪些设置可生成准确的高质量输出。
  • 时间性能:比较不同配置的响应时间。

不要仅根据平均分数选择模型。在查看评估结果时,请考虑:

  • 故障发生的位置和方式
  • 场景间的一致性
  • 延迟和执行时间
  • 相对于质量收益的成本

如果分数稍低的模型明显更便宜、更稳定,则可能更可取。

以下步骤总结了本节所述的核心流程。在为智能体选择和优化模型时,请使用它们作为快速参考:

  1. 在智能体设计期间从初始模型开始。
  2. 使用较低的温度,优先考虑一致性。
  3. 构建一个可运作的智能体并验证端到端行为。
  4. 从真实的智能体运行中创建评估集。
  5. 使用同一评估集比较多个模型。
  6. 选择始终满足质量标准且成本最低的模型。
  7. 当智能体发生演变或推出新模型时,重新运行评估。

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新