- Document Understanding 发行说明
- ML 包和公共端点发行说明
Document Understanding 发行说明
2022 年 5 月
新增功能
Document Understanding 现在可用于一般用途,采用了集成度更高的新界面,其中包括 Document Manager 和 Forms AI。在 UiPath Cloud 中的租户上启用该服务,左侧导航栏中将显示一个新选项卡。
Forms AI 现在作为 Document Understanding 的一部分提供,可用于上传和处理具有标准布局和字段的结构化表单。
Data Manager 名称更改为 Document Manager。
Document Manager 中提供了一个新选项,可让您永久删除单独的文件。该选项位于同时包含下载选项的下拉列表中。
现在,您可以选择重命名先前创建的字段。
现在可以在文档内进行搜索,您可以在当前文档中搜索字词。
通过导入数据集收集的数据现在已集成到子集字段的 JSON 文件中,这意味着,如果您手动修改文件或从数据集中完全删除文件,则不会影响模型的训练。
deleted
关键字,否则它只会搜索未删除的文档。
文档视图收到了新的入门提示。
改进
将预测功能与 Document Manager 一起使用时,未由用户手动编辑的标记数据将替换为从模型接收的值。
添加了有关“训练”、“验证”和“评估”文档类型的更多描述性工具提示。
列和常规字段的编辑字段对话框已重组。“后处理”、“多页”、“评分”和“颜色”选项已移至“高级”选项卡。其余选项可在“常规”选项卡中找到。
改进了重复文档的导入速度。
分类字段现在按创建顺序显示。
错误修复
- 修复了一个已知问题,该问题导致搜索或下载文档时,如果文件名中含有需要 URL 编码的字符(
&
、,
、+
、#
、'
),则查询失败。 - 修复了导致“预测”功能在文本非常密集的文档上失败的错误。
- 删除了每个会话最多导入 2000 个文档的限制。现在,考虑到每次导入最多 2000 页的限制,一个会话中可以包含 2000 多个文档。
- 修复了按
ctrl
或shift
时无法选择 3 个以上方框的错误。 - 修复了一个错误,该错误导致导入在重新启动 Pod 后暂停处理,但作业没有恢复。
- 修复了“预测”函数无法从整个文档中提取数据的错误。请注意,将该功能与公共端点一起使用时,仍然存在 10 页的限制。
- 修复了 Microsoft Read OCR 的错误,即匹配
*.cognitiveservices.azure.com
子域的端点会引发OCR endpoint is not valid
错误。 - 修复了导致 Document Manager 数据集的导入内容在超过 10 页的文档上会混淆页面的错误。
- 修复了一个错误,该错误在选择“所有已加标签”选项时会导致下载或导出空数据集或完整数据集的一小部分。
已知问题
- 最大导入大小从 2GB 或 2000 页减少到 1GB 或 2000 页。
- 搜索或下载文档时,如果文件名中含有需要 URL 编码的字符(
&
、,
、+
、#
、'
),则会失败,并显示invalid query
。