- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 管道
- Data Manager
- OCR 服务
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- 参考
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding 用户指南
标注文档
在许多情况下,某个字段会出现在同一文档甚至同一页面的多个位置中。只要它们具有相同的含义,这些都应加上标签。
例如,水电费账单的总金额。它通常显示在顶部、中间的行项目列表中,或在底部的工资单中,您可以将其分离,然后在邮件中随支票一起发送。在这种情况下,所有三个出现的事件都将被标记。这非常有用,因为在某些情况下,如果存在 OCR 错误或版式不同,并且无法识别一个字段,则模型仍可以识别其他出现的字段。
您可以让多个用户同时使用同一实例添加标签,即使是在同一文档中也是如此。
如果对架构执行并发更改,则对于其中一个用户,更改将通过,而对于其他用户,系统将显示警告消息,指出无法执行更改。其他用户应立即刷新其浏览器以查看更改。
当你输入一个数据集而不选中“导入数据”对话框中的“将此设为评估集”复选框,那么该数据集将被用于训练,您只需要专注于对文档中的词语(灰框)添加标签。
如果侧边栏字段中填充的文本有时不正确,这不是问题,因为 ML 模型仍会学习。在某些情况下,您可能需要调整字段的配置:例如,通过选中“多行”复选框。但是,总的来说,我们主要还是要为页面上的词语添加标签。
导入数据集时,如果选中“导入数据”对话框中的“将此设为评估集”复选框,则 AI Center 中的“训练管道”将不会使用该数据集,而只有“评估管道”会使用该数据集。
请务必在侧边栏(或列字段的顶栏中)填写正确的文本。这需要花费更长的时间来验证每个字段,但这是您获得正在构建的 ML 模型准确性可靠指标的唯一方法。
从 2021.10 发行版开始,Data Manager 支持标记多页文档。因此,侧边栏中的字段在整个文档中具有单个值。这密切反映了 RPA 工作流中运行时的行为,并使 AI Center 中的评估管道能够生成反映 ML 模型实际运行时性能的真实分数。
但是,请谨记,与以前的版本相比(每个页面都需要单独标记),这是一个重大变化。标记和导出多页文档时,假设每个文档代表一个逻辑文档。例如,一个六页的文档可能包含单张六页的发票,但不应包含三张不同的发票(每张发票两页)。这对于评估集尤其重要。
请参见下文,了解在标记文档时需要执行的主要操作。可以在同一个页面上的多个位置标记给定字段。
单击以选择单个文本框。
Ctrl
/Shift
并单击剩余的词,或通过拖动鼠标(橡皮筋)来选择整个区域。
Ctrl
/Shift
的同时再次单击或用橡皮筋将不需要的文本框括起来。
选择准确后,点击快捷键为字段添加标签。