document-understanding
2022.4
true
Document Understanding 发行说明
Last updated 2024年5月25日
2022.4.0
本地部署版 Document Manager 发布日期:2022 年 5 月 23 日
通过查看自上次发布 LTS 到现在为止发生更改的下一个列表,及时了解有关 Document Manager 的所有最新消息。
Data Manager 名称更改为 Document Manager。
提供了一个新选项,可让您永久删除单独的文件。该选项位于同时包含下载选项的下拉列表中。
现在,您可以选择重命名先前创建的字段。
现在可以在文档内进行搜索,您可以在当前文档中搜索字词。
通过导入数据集收集的数据现在已集成到子集字段的 JSON 文件中,这意味着,如果您手动修改文件或从数据集中完全删除文件,则不会影响模型的训练。
现在,已删除的文档将不会从重复数据删除中排除,这意味着您现在可以导入同一个文档两次。已删除的文档也会从搜索或筛选中排除,因此,除非您使用
deleted
关键字,否则它只会搜索未删除的文档。
文档视图收到了新的入门提示。
注在禁用“全文搜索”选项的情况下使用 SQL Server 安装的本地部署,需要在安装时重新启动“全文搜索”服务以启用该选项。这可以通过在服务器上由具有适当权限的 DBA 运行
EXEC sp_fulltext_service 'restart_all_fdhosts'
命令来完成该操作。
将预测功能与 Document Manager 一起使用时,未由用户手动编辑的标记数据将替换为从模型接收的值。
添加了有关“训练”、“验证”和“评估”文档类型的更多描述性工具提示。
列和常规字段的编辑字段对话框已重组。“后处理”、“多页”、“评分”和“颜色”选项已移至“高级”选项卡。其余选项可在“常规”选项卡中找到。
改进了重复文档的导入速度。
分类字段现在按创建顺序显示。
- 修复了一个已知问题,该问题导致搜索或下载文档时,如果文件名中含有需要 URL 编码的字符(
&
、,
、+
、#
、'
),则查询失败。 - 修复了导致“预测”功能在文本非常密集的文档上失败的错误。
- 删除了每个会话最多导入 2000 个文档的限制。现在,考虑到每次导入最多 2000 页的限制,一个会话中可以包含 2000 多个文档。
- 修复了按
ctrl
或shift
时无法选择 3 个以上方框的错误。 - 修复了一个错误,该错误导致导入在重新启动 Pod 后暂停处理,但作业没有恢复。
- 修复了“预测”函数无法从整个文档中提取数据的错误。请注意,将该功能与公共端点一起使用时,仍然存在 10 页的限制。
- 修复了 Microsoft Read OCR 的错误,即匹配
*.cognitiveservices.azure.com
子域的端点会引发OCR endpoint is not valid
错误。 - 修复了导致 Document Manager 数据集的导入内容在超过 10 页的文档上会混淆页面的错误。
- 修复了一个错误,该错误在选择“所有已加标签”选项时会导致下载或导出空数据集或完整数据集的一小部分。
- 最大导入大小从 2GB 或 2000 页减少到 1GB 或 2000 页。
- 搜索或下载文档时,如果文件名中含有需要 URL 编码的字符(
&
、,
、+
、#
、'
),则会失败,并显示invalid query
。
有关 Document Manager 中发生的所有更改的更多详细信息,请参阅以前的发布说明。