Document Understanding 发行说明

适用平台：

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

上次更新日期 2025年2月13日

2021 年 10 月

General Release Notes - Document Understanding

2021 年 10 月 19 日

改进

带有标签的少于 10 个文档的字段可以删除，无需确认。

错误修复

修复了影响已导入的同名文件的错误。
修复了 Google OCR 中的一个错误，该错误在具有空页面的文档上引发错误。
修复了在“验证站点”或“Data Manager”数据集导入的“导入数据”对话框中错误显示文件计数的错误。

已知问题

默认导出（文档级别）仅适用于 AI Center 中的 21.10 或更高版本的 ML 包。版本将显示在 AI Center 的 ML 包视图的“更改日志”列中。对于旧版本，请使用“导出文件”对话框中的“向后兼容导出”复选框。

2021 年 10 月 1 日

多页文档支持

Data Manager 现在支持多页文档。这是一个重大更新，会影响机器学习流程的各个方面：

导入：您最多可以上传 150 页文档；要绕过此限制（可能会带来不稳定的加标签体验），请从“导入数据”对话框中选择“启用大文档”复选框。

预加标签：作为一个整体为文档预加标签，生成的结果与在 RPA 工作流中运行时相同，但如果文档较大，则需要花费更多时间。另请参阅下面的“已知问题”。

加标签：由于可在文档页面中自然滚动，因此加标签更方便。

导出：默认在文档级别完成。如果要在页面级别导出文档，请从“导出文件”对话框中选择“向后兼容导出”复选框；即使默认导出生成的模型准确性低于预期，也建议这样做。

训练：在大多数情况下，使用新文档级别导出的数据集训练的模型应具有与页面级别的向后兼容导出相同的性能。但是，如果模型的执行结果低于预期，我们也建议您使用向后兼容导出重试训练，因为训练可能产生更好的结果。

评估：这是多页文档支持功能的主要目的，因为评估分数将更准确地反映运行时性能。请注意，这假设每个多页文档都包含一个逻辑文档。例如，如果导入包含 10 张发票（共 2 页）的 20 页文件数据包，则此数据包不应用作评估集的一部分。但是，它们只能用作训练集的一部分，但前提是您使用已启用的“向后兼容”选项进行导出。

改进

使用“导出文件”对话框中的单选按钮导出架构支持。

最大导入大小增加到 2GB 或 2000 页。

“测试集”已重命名为“评估集”，以与 AI Center 评估管道保持一致。

“预测”按钮默认显示在管理栏中，但需要配置“预加标签”设置才能启用该按钮。

从评估集导出的内容中删除的每字段样本数的所有限制。

在管理栏中的文件名旁边添加了“Data Manager”会话名称，以便在同时打开多个“Data Manager”选项卡时更轻松地标识正在处理的会话。

支持中文文档。

无障碍功能改进。

葡萄牙语（葡萄牙）、俄语和土耳其语的本地化。

已知问题

“中国发票”模式不会以标准 yyyy-mm-dd 格式设置中文样式日期的格式。以后的版本中将对此进行改进。
Data Manager 对日期的解析与运行时 ML 模型作出的解析不一致。如果您发现 Data Manager 中的日期解析错误，则很可能在运行时的模型预测中会正确解析这些日期。这是一个已知问题，将在即将发布的补丁中解决。
目前，将“预测”选项与“公共端点”一起使用时，只能预标记文档的前 10 页。这是一个已知问题，即将发布的补丁中将包含增强功能。但是，在 AI Center 中将“预测”选项与 ML 技能一起使用并不会施加这样的限制。

在此页面上