Document Understanding
最新
False
  • 发行说明
横幅背景图像
Document Understanding 发行说明
上次更新日期 2024 年 5 月 9 日

2021 年 10 月

General Release Notes - Document Understanding

2021 年 10 月 19 日

改进

带有标签的少于 10 个文档的字段可以删除,无需确认。

错误修复

  • 修复了影响已导入的同名文件的错误。
  • 修复了 Google OCR 中的一个错误,该错误在具有空页面的文档上引发错误。
  • 修复了在“验证站点”或“Data Manager”数据集导入的“导入数据”对话框中错误显示文件计数的错误。

已知问题

  • 默认导出(文档级别)仅适用于 AI Center 中的 21.10 或更高版本的 ML 包。版本将显示在 AI Center 的 ML 包视图的“更改日志”列中。对于旧版本,请使用“导出文件”对话框中的“向后兼容导出”复选框。

2021 年 10 月 1 日

多页文档支持

Data Manager 现在支持多页文档。这是一个重大更新,会影响机器学习流程的各个方面:

导入:您最多可以上传 150 页文档;要绕过此限制(可能会带来不稳定的加标签体验),请从“导入数据”对话框中选择“启用大文档”复选框。

预加标签:作为一个整体为文档预加标签,生成的结果与在 RPA 工作流中运行时相同,但如果文档较大,则需要花费更多时间。另请参阅下面的“已知问题”。

加标签:由于可在文档页面中自然滚动,因此加标签更方便。

导出:默认在文档级别完成。如果要在页面级别导出文档,请从“导出文件”对话框中选择“向后兼容导出”复选框;即使默认导出生成的模型准确性低于预期,也建议这样做。

训练:在大多数情况下,使用新文档级别导出的数据集训练的模型应具有与页面级别的向后兼容导出相同的性能。但是,如果模型的执行结果低于预期,我们也建议您使用向后兼容导出重试训练,因为训练可能产生更好的结果。

评估:这是多页文档支持功能的主要目的,因为评估分数将更准确地反映运行时性能。请注意,这假设每个多页文档都包含一个逻辑文档。例如,如果导入包含 10 张发票(共 2 页)的 20 页文件数据包,则此数据包不应用作评估集的一部分。但是,它们只能用作训练集的一部分,但前提是您使用已启用的“向后兼容”选项进行导出。

改进

使用“导出文件”对话框中的单选按钮导出架构支持。

最大导入大小增加到 2GB 或 2000 页。

“测试集”已重命名为“评估集”,以与 AI Center 评估管道保持一致。

“预测”按钮默认显示在管理栏中,但需要配置“预加标签”设置才能启用该按钮。

从评估集导出的内容中删除的每字段样本数的所有限制。

在管理栏中的文件名旁边添加了“Data Manager”会话名称,以便在同时打开多个“Data Manager”选项卡时更轻松地标识正在处理的会话。

支持中文文档。

无障碍功能改进。

葡萄牙语(葡萄牙)俄语土耳其语的本地化。

已知问题

  • 中国发票”模式不会以标准 yyyy-mm-dd 格式设置中文样式日期的格式。以后的版本中将对此进行改进。
  • Data Manager 对日期的解析与运行时 ML 模型作出的解析不一致。如果您发现 Data Manager 中的日期解析错误,则很可能在运行时的模型预测中会正确解析这些日期。这是一个已知问题,将在即将发布的补丁中解决。
  • 目前,将“预测”选项与公共端点一起使用时,只能预标记文档的前 10 页。这是一个已知问题,即将发布的补丁中将包含增强功能。但是,在 AI Center 中将“预测”选项与 ML 技能一起使用并不会施加这样的限制。

一般发布说明 - ML 包

2021 年 10 月 22 日 | V.21.10.9

在 AI Center Cloud 和端点中发布:2021 年 10 月 22 日,包版本:21.10.9

新增功能

采购订单 ML 包现已正式发布,并且已准备就绪,可以在生产场景中使用。

中国发票交付说明汇款通知书W2W9 ML 包现在处于公开预览阶段。我们建议您签出这些包,并开始将其用于需要处理的文档类型。

改进

已实施文档级别评估。此评估代表了 RPA 工作流的运行时性能。

还可以对数据集进行评估,与对 ML 包进行评估相比,这样需要评估的字段数更少。这有助于对开箱即用的预训练 ML 包进行评估。

要评估 OCR 对提取准确性的影响,您现在可以在运行评估管道时重新运行它。这需要在创建 ML 包时配置 OCR,并且需要在 AI Center 评估管道中将环境变量 eval.redo_ocr 设置为 true。

现在,CPU 上的训练使用更小的模型,可使速度提高 5 到 7 倍。但是,CPU 上的训练预计会导致准确度降低 0-5%。

向评估管道生成的 Evaluation.xlsx 文件添加了“最低置信度”列和“直通处理率”列。

大大改进了 UtilityBills ML 包。

针对跨 1 到 2 行文本的地址改进了地址解析。

改进了提取负值、非常大的值(11 位或以上)或遥远的未来日期的功能。

添加了对收据上的旋转框的支持。

串联跨度增强功能。

错误修复

  • 修复了在字符串类型字段中不返回特殊字符的错误。
  • 修复了 Passports ML 包的一个错误,即写为序数(1st、2nd、3rd 和 4th 等)的日期解析不正确。

已知问题

当前不支持使用来自验证站点的数据再训练“日本发票”和“中国发票”ML 包。解决方法是使用 Google Cloud Vision OCR

即将弃用

自 2021 年 12 月 1 日起,非西欧地区不推荐使用除 UiPath 文档 OCR表单提取程序智能表单提取程序智能关键词分类器之外的所有公共端点。

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.