- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- 990 - ML 包 - 预览
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 护照 - ML 包
- 工资单 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 硬件要求
- 管道
- Document Manager
- OCR 服务
- 深度学习
- Insights 仪表板
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- 活动
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
简介
The UiPath® Document UnderstandingTM framework facilitates the processing of incoming files, from file digitization to extracted data validation, all in an open, extensible, and versatile environment.
Document Understanding 旨在帮助您结合使用不同的方法,从多种文档类型中提取信息。其主要目的是尽量简化数据提取过程:创建一个可从各种文档中提取数据的工作流。
在使用 Document Understanding 框架之前,建议您先了解以下 Document Understanding 框架组件:
- 分类 需要处理哪些文档?需要其中的哪些数据?用于定义文档类型和针对每种文档类型的数据提取(字段)的信息片段,并将此信息形式化为专用的分类结构。此元数据信息通过分类管理器进行管理。
- 数字化 此文件包含哪些内容?用于获取传入文档的文本内容和结构,将文件转换为计算机可读内容,以便在下游做进一步处理。
- 文档分类 此文件包含分类中的哪些文档类型?用于自动确定在数字化的文件中可以找到哪些文档类型。
- 文档分类验证 分类预测是否正确?我就是通过这种方式来执行审核和更正的。用于协助人工验证和更正自动分类及文档拆分结果。
- 分类训练 数据是否经过人工审核?机器人正是通过这种方式来学习的。用于将人工验证后的信息传递回分类器,用于改进分类器未来的预测功能。
- 数据提取 在此特定文档中可以找到哪些数据?用于在给定的输入文档和分类页面范围内捕获已识别的文档类型所需的信息。
- 数据提取验证 提取的信息是否正确?我就是通过这种方式来执行审核和更正的。用于协助人工验证和更正自动提取的数据结果。
- 数据提取训练 数据是否经过人工审核?机器人正是通过这种方式来学习的。用于将人工验证后的提取数据传递回提取程序,利用它来改进提取预测。
- 数据消耗用于导出经验证的数据以便使用。
- “计量和收费逻辑”用于解释每项可用服务的每页单位消耗量。
下图显示 Document Understanding 框架的各个组件以及它们之间的相互关系:
Document Understanding 框架位于 UiPath.IntelligentOCR.Activities 包中。 安装 UiPath.IntelligentOCR.Activities 包后,UiPath Studio 的顶部功能区中将显示 分类管理器 向导。 此同一包中包含 Document Understanding 框架的所有核心活动。
这些“作用域”活动(“对文档作用域进行分类”、“数据提取作用域”、“训练分类器作用域”、“训练提取程序作用域”)属于 Document Understanding 框架的一部分,允许您使用适合用例的任何文档分类和数据提取算法,然后训练这些算法。
Document Understanding 框架不仅可以与开箱即用的分类器和提取程序一起使用,还可以与任何自定义构建的分类器和提取程序一起使用。这些活动可以使用 UiPath.DocumentProcessing.Contracts 包中的抽象类创建,并且可以作为分类或数据提取活动来实现。您还可以使用 UiPath.OCR.Contracts 包中的抽象类创建自定义 OCR 引擎。
可以在 UiPath RPA Academy 中找到专门的 Document Understanding 课程。
UiPath Community 论坛是通过我们不断发展的用户社区获得支持的地方。