- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 数据与安全性
- 许可

Document Understanding 用户指南
在许多情况下,某个字段会出现在同一文档甚至同一页面的多个位置中。只要它们具有相同的含义,这些都应加上标签。
例如,水电费账单的总金额。它通常显示在顶部、中间的行项目列表中,或在底部的工资单中,您可以将其分离,然后在邮件中随支票一起发送。在这种情况下,所有三个出现的事件都将被标记。这非常有用,因为在某些情况下,如果存在 OCR 错误或版式不同,并且无法识别一个字段,则模型仍可以识别其他出现的字段。
您可以让多个用户同时使用同一实例添加标签,即使是在同一文档中也是如此。
如果对架构执行并发更改,则对于其中一个用户,更改将通过,而对于其他用户,系统将显示警告消息,指出无法执行更改。其他用户应立即刷新其浏览器以查看更改。
当您导入一个数据集而不选中“导入数据”对话框中的“将此设为评估集”复选框,那么该数据集将被用于训练,您只需要专注于为模型添加标签以及有关文档的标签和值(可选择的单词,灰框)。
如果侧边栏字段中填充的文本有时不正确,这不是问题,因为 ML 模型仍会学习。在某些情况下,您可能需要调整字段的配置:例如,通过选中“多行”复选框。但是,总的来说,我们主要还是要为页面上的词语添加标签。
导入数据集时,如果选中“导入数据”对话框中的“将此设为评估集”复选框,则 AI Center 中的“训练管道”将不会使用该数据集,而只有“评估管道”会使用该数据集。
Document Manager 支持标记多页文档。因此,侧边栏中的字段在整个文档中具有单个值。这密切反映了 RPA 工作流中运行时的行为,并使 AI Center 中的评估管道能够生成反映 ML 模型实际运行时性能的真实分数。
但是,请谨记,与以前的版本相比(每个页面都需要单独标记),这是一个重大变化。标记和导出多页文档时,假设每个文档代表一个逻辑文档。例如,一个六页的文档可能包含单张六页的发票,但不应包含三张不同的发票(每张发票两页)。这对于评估集尤其重要。
可以在同一个页面上的多个位置标记给定字段。
为字段添加标签
要选择多个字词,请选择第一个字词,然后按 Ctrl/Shift 并单击所需的其余字词,或通过拖动鼠标(橡皮筋)来选择整个区域。
要从您的选择中取消选择某些文本框,请在按 Ctrl/Shift 的同时再次选择不需要的文本框或用橡皮筋括起来。
选择准确后,点击快捷键为字段添加标签。
Label a multivalued field
确保已选择字段的多值选项。
选择第一批信息,然后点击快捷键为字段添加标签。
重复上述步骤,直到多值字段的所有值已添加标记。
删除标签
选择文本框,然后按键盘上的 Delete 或 Backspace 键。
将表格行分组
标记某些列字段后,仅当某些行跨越多行文本时,才可以通过按 / 键将它们分组到一起,以指示它们属于同一表格行。该组周围将出现一个绿色框,以直观方式显示该行已分组。
/
键对每一行进行明确的分组。
取消表格行分组
选择该组,然后再次按 / 键。
其他选项
选择标签
使用鼠标左键或右键选择框或查找有关框的更多信息。
- 左键单击 - 选择框
- 右键单击 - 选择框并显示有关 OCR 文本和当前标签的信息。
文档导航
- Alt + 向左箭头/向右箭头 - 在文档之间导航。
文档缩放
- Ctrl + 滚动 - 放大或缩小文档显示比例。
删除或恢复文档
- Alt + Delete - 删除文档。
- Alt + Delete - 恢复已删除的文档。