Document Understanding 发行说明
2022.10.0
通过查看自上次发布 LTS 到现在为止发生更改的下一个列表,及时了解有关 Document Manager 的所有最新消息。
数据集诊断是一项新功能,可在训练新模型的整个过程中提供可视化和书面指导,帮助您构建有效的数据集。
现在可以将架构导入应用于多值字段。您还可以导出或下载具有多值字段的架构。
请注意,多值字段仅与版本 2022.10 或更高版本的模型兼容。
复选框可与多值字段一起使用,并以不同的形式应用。例如,您可以使用以下复选框选项:为选项添加标签;为复选框添加标签,每个复选框都有单独的字段;仅标记具有单个多值字段的复选框;或使用单个多值字段标记选项。
“导入”功能现在拥有一个“导入状态”屏幕,该屏幕提供有关流程的详细信息,例如“导入类型”、“已使用的 OCR 引擎”、“已处理的文档”、“已跳过的重复项”或“错误”。您可以选择查看日志以获取更多详细信息,也可以选择关闭对话框。
已对多值字段的添加标签过程进行了改进。现在,您可以在多值字段的默认折叠状态下看到两个值,并且所有已添加标签的值都处于展开状态。
现在,您可以在 Document Manager 中使用嵌套在操作菜单中的“删除项目”选项,用于删除以前创建的项目。
现在,无需手动编辑字段即可从验证站点导入数据集。如果需要手动编辑,用户可以在导入数据集后执行此操作。
OCR 设置已得到增强,这意味着设置 OCR 引擎后,即可将其用于 Document Manager 会话。
“创建新的文档类型 - 半结构化 AI”窗口已进行改进,您可以选择开箱即用的预训练文档类型并根据需要进行自定义。此选项根据字段、语言和布局的数量估计训练所需的数据集大小。
“新建项目”弹出框已重新设计,并带有“高级选项”部分。在这里,您可以使用“从 AI Center 导入”和“AI Center 项目”选项从 AI Center 导入和选择项目。
“导出”对话框现在有一个附加选项“全部”,用于导出所有数据,包括未加标签的数据。这使您可以将整个文档类型集合从一个环境迁移到另一个环境,这在以前是无法做到的。
“导出文件”弹出框有一个新按钮可用,即“下载到 Excel”选项,可用于下载 Excel 格式的导出文件。
Document Manager 中的“导出”按钮已重命名为“导出到 AI Center”。
在创建 Document Manager 会话的对话框中,“保存”按钮已重命名为“创建”。
在导入时,我们对数字化流程进行了改进,无论使用何种导入程序(本地部署或 Studio 桌面版),都可以收到相同的结果。
- 修复了在 Document Manager 中导入文件时发生的错误,该错误会导致
List index out of range
错误。 - 修复了由于命名问题而导致 Document Manager 中出现导入错误的错误。
- 修复了从 Document Manager 导出带标签的文档时发生的错误。该错误已修复,现在导出带标签的文档时不会出现问题。
- 修复了在使用特殊
line_detection mode
训练的模型上运行评估管道时发生的错误,该错误导致预测与从 ML 技能调用时不同。