
非结构化复杂文档用户指南
模型配置
概述
您可以从“构建”选项卡的“模型配置”选项中配置底层 LLM 及其设置。
可用设置包括:
- 智能预处理:
- 无
- 表格模型 - 小型
- 表格模型
- Layout model (extended languages) - preview
- 提取模型:
- GPT-4o
- Gemini
- 高级选项:
- 归因
- 温度
- Top P
- 种子
- 频率惩罚
- 覆盖提示词
调整这些设置,以提高模型预测的准确性并增强其性能。
智能预处理
在文档因格式复杂而难以解释时,智能预处理选项可提高预测性能。
其中包括以下选项:
- 无 - 此默认选项适用于大多数没有表格内容的文档。
- 表格模型 - 微型- 已针对表格内容和延迟进行优化。此选项最适合包含简单表格或多个表格的文档。
- 表格模型- 针对更复杂的表格内容进行了优化。此选项最适合包含复杂嵌套表的文档,包含合并单元格、项目符号点的表格或跨多个页面的表格。
备注:
- 虽然这在复杂表格上表现最佳,但会增加预测的延迟。
- 此功能依赖 Gemini 模型并通过 AI Trust Layer 实现。
- Layout model (extended languages) - Adds an extra preparation step before extraction to help the model better read documents that are difficult to interpret due to their visual structure. This option is best suited for forms with checkboxes, handwriting, dense tables and documents that mix different types of content such as tables, lists, and free text. For more details on this feature, check Layout model for extended languages.
智能预处理示例
下图包含一个不使用“表格”模型模式的提取查询 LLM 的示例,其中this period列中的值与year to date列中的值混淆。

下图包含一个使用“表格模型”模式进行提取的示例,该模式会正确提取两列this period和year to date中的值。

提取模型
“提取模型”选项表示用于提取的底层 LLM。
可用模型包括:
- GPT-4o
- Gemini
选择最合适的模型
不同模型对于不同用例的性能不同,但建议您尽可能使用 Gemini。其他几种有助于优化性能和用户体验的预处理和后处理功能也是基于 Gemini。
GPT-4o 的页面上限为 50 个,只能使用私人预览迭代调用功能处理更多流程。
Gemini 2.5 Flash can process documents in IXP up to 500 pages in a single call, with higher page counts supported in preview. The Gemini limit may vary slightly based on the density of the the document. In terms of field values, Gemini 2.5 Flash has a higher output context window, which allows it to handle more field values than GPT4o. The strict limit without pre-processing options is around 1000 field values per document. This may vary depending on the complexity of the document.
从一个模型切换到另一个模型
要从一个模型切换到另一个模型,请使用“提取模型”选项的下拉列表,然后选择“保存”。这将触发创建新的项目版本并自动生成新的预测。
对于成熟的项目,分类(尤其是说明)和已确认的预测(尤其是推断字段)通常针对一种模型类型进行优化,而不是另一种模型类型。切换后,性能分数可能会下降,因为可能需要对指令进行一些迭代并重新审核预测,以撤消可能影响另一个模型性能的特定于模型的优化。
如果您出于性能考虑需要切换模型,请先查看替代模型能否解决当前模型无法解决的核心问题。如果可以,请优化新模型,以改善“度量”中的性能指标。
文档处理限制
在实践中,智能提取处理 (IXP) 可以为每个文档可靠地提取约 1,200 个字段值。
这意味着,如果文档需要提取 1,200 个以上的字段值,则模型可能会达到其令牌上限。 即使文档完全处于本部分列出的页面限制内,也可能会发生这种情况。 研究和开发工作正在进行,以支持在未来版本中更高的字段值上限。
如果超过令牌上限,则无论页面数如何,预测都可能不完整或为空。 例如,一个已提取 1,400 个字段值的 80 页文档可能会在用户界面中触发令牌上限警告。在运行时,当超出令牌上限时,API 响应将通过返回 0 的出现和提取置信值来显示此情况。
如果超过页面限制,则仅会处理以下指定限制内的页面。 这些行为都适用于 Gemini 和 GPT-4o。
Runtime / runtime 限制包括:
- 每个文档的页数:
- 对于 Gemini,最多 500 页。
- 对于 GPT-4o,使用迭代调用专用预览功能时,最多可达 150 个页面。
- 令牌限制- 包含超过 200 次提取的数据量大的文档(例如超长表格)可能会达到令牌限制。如果 GPT-4 达到其限制,您可以使用迭代调用个人预览功能来增加字段输出。但是,默认情况下,Gemini 有更高的输出令牌限制,因此两个模型都可以通过单次调用返回相似数量的字段值:Gemini 通过多次调用返回 GPT。
备注:
要请求访问迭代调用个人预览功能,请联系您的客户经理。
高级选项
高级选项使您能够自定义模型的设置,选择要使用的归因方法,以及使用提示词覆盖。
仅在例外情况下才建议使用提示覆盖。
展开设置以查看所有可用选项:
- 归因- 用于将预测结果归因于文档中的相关部分或文本的方法。选择以下选项之一:
- 基于规则- 使用一组广泛的规则和启发式方法,将页面上的正确跨度与模型中的预测值进行匹配。这是一个低延迟选项,但与基于模型的选项相比,它提高了成功归因方面的性能。
- 基于模型- 使用额外的 LLM 调用成功地将预测值与页面上的正确跨度匹配,因为这些值通常可以在页面的不同部分重复。就成功的归因而言,这是最高绩效的选项,但确实会增加预测的延迟。此选项依赖于使用 Gemini 模型。
- 温度- 要使用的采样温度。选择一个介于 0.0 和 2.0 之间的数字。值越高,输出的随机性就越大。
- 自上而下- 仅从概率质量为
top_p令牌中选取样本。选择一个介于 0.0(含)和 1.0(含)之间的数字。 - 种子- 如果指定,重复使用相同种子和参数的请求应返回相同结果。
- 频率罚分- 选择一个介于 -2.0 和 2.0 之间的数字。正值会降低模型重复已在文本中出现的令牌的概率。
- 提示词覆盖- 使用新值覆盖默认的系统提示词。系统默认禁用此选项。启用后,系统将启用“附加任务说明”提示词和“附加字段说明”提示选项以进行配置。
备注:
UiPath™ 团队已经研究并优化了模型设置的默认值,例如Testing 、 Top P和Document Understanding 。因此,除非您知道需要哪些特定设置,否则不需要调整这些值。