- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 从收据中提取数据
- 使用附加字段重新训练发票
- 从表单中提取数据
- 从文件开始创建新自动化
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
Document Understanding 用户指南
从表单中提取数据
此页面旨在帮助首次使用Document Understanding TM的用户。
对于可扩展的生产部署,我们强烈建议您使用 UiPath™ Studio 模板部分下的 Document Understanding 流程 。
本快速入门将指导您完成使用智能表单提取程序从 W-9 表单中提取信息所需的步骤。以 W-9 表单为例,该过程与其他类型的数据结构化文档类似。
从头开始,以下是需要遵循的步骤:
- 创建空白流程
- 安装所需的活动包
- 创建分类
- 将文档数字化
- 使用智能表单提取程序提取数据
- 使用验证站点验证结果
- 导出提取结果
现在,让我们详细了解每个步骤。
启动 UiPath Studio。
在“主页”的后台视图中,单击“流程”以新建项目。
系统将显示“新的空白流程”窗口。在此窗口中,输入新项目的名称。如果需要,您还可以添加说明,以便更轻松地对项目进行排序。
单击“创建”。系统随即会在 Studio 中打开新项目。
通过功能区的“管理包”按钮,除了默认添加到项目中的核心活动包(UiPath.Excel.Activities、UiPath.Mail.Activities、UiPath.System.Activities 及 UiPath.UIAutomation.Activities)外,请安装以下活动包:
安装包后,请列出必填字段。我们将对以下字段进行数据提取:
- 1_名称 -
Text
- 2_企业名称 -
Text
- 3a_个人 -
Boolean
- 3b_Ccorp -
Boolean
- 3c_Scorp -
Boolean
- 3d_合作伙伴 -
Boolean
- 3e_TrustEstate -
Boolean
- 3f_LLC -
Boolean
- 3f_LLC 税分类 -
Boolean
- 3g_其他 -
Boolean
- 3g_其他详情 -
Boolean
- 5_地址 -
Text
- 6_邮政编码 -
Text
- 7_帐户编号 -
Text
- TIN_SSN -
Text
- TIN_ETN -
Text
- 认证签名 -
Boolean
- 认证签名日期 -
Date
请打开“分类管理器”并创建一个名为“结构化文档”的组、一个名为“贷款表单”的类别,及一个名为“W-9”的文档类型。使用用户友好名称以及相应的数据类型创建上面列出的字段。
在 Main.xaml 文件中,添加“加载分类”活动并为分类输出创建一个变量。
使用 UiPath Document OCR 添加“数字化文档”活动。提供输入属性文档路径,并为文档文本和文档对象模型创建输出变量。
请记住在“UiPath 文档 OCR”活动中添加 Document Understanding API 密钥。
添加“数据提取作用域”活动并填写属性。
将智能表单提取程序拖放到其中。该端点会自动填充智能表单提取程序端点,即 https://du.uipath.com/svc/intelligentforms。提供 Document Understanding API 密钥。
完成后,如要创建新模板,请单击“管理模板”>“创建模板”。系统将打开一个弹出窗口。
在“文档类型”下,选择之前创建的 W-9 文档类型。
在文档名称下,输入模板的名称。
在模板文档(如果可能)下,附加要在其中映射字段位置的模板文档。
在“OCR 引擎”下,再次选择“UiPath 文档 OCR”。像以前一样,端点会自动填充,即 https://du.uipath.com/ocr,而您只需要提供 API 密钥。
单击“配置”以转到下一步。系统将打开“模板管理器”弹出窗口。
您应该得到如下结果:
单击“保存”。在此屏幕中,您可以定义手写或签名字段(如果适用)。您还可以为布尔值字段定义同义词。完成后请关闭窗口。
下一步是配置提取程序,这意味着让智能表单提取程序处理所有类型为 W-9 的文档。
要通过“验证站点”检查结果,请拖放“呈现验证站点”活动并提供输入详细信息。
DataSet
中,然后可以将其写入 Excel 文件或直接在下游流程中使用。
请使用此链接下载此示例项目,以执行 W-9 和智能表单提取程序工作流。