- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 管道
- Document Manager
- OCR 服务
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 深度学习
- 许可
- 参考
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
关于 ML 包
使用 Document Understanding ML 包涉及以下步骤:
- 收集文档示例和需要提取的数据点的要求。
- 使用 Document Manager 为文档添加标签。Document Manager 本身将连接到 OCR 服务。
- 下载或导出带标签的文档作为训练数据集,并将导出的文件夹上传到 AI Center 存储。
- 下载或导出带标签的文档作为评估数据集,并将导出的文件夹上传到 AI Center 存储。
- 在 AI Center 上运行训练管道。
- 在 AI Center 上使用评估管道评估模型性能。
- 在 AI Center 中将经过训练的模型部署为 ML 技能。
- 使用 UiPath.DocumentUnderstanding.ML 活动包从 RPA 工作流查询 ML 技能。
重要事项:请记住,使用 Document Understanding ML 包要求安装 AI Center 的计算机可以访问
https://du-metering.uipath.com
。重要提示:在 AI Center 中创建 UiPath.DocumentUnderstanding.ML.Activities 包时,包名称不应为任何 python 保留关键字,例如class
、break
、from
、finally
、global
、None
等。请注意,此列表并不详尽,因为class <pkg-name>
和import <pkg-name>
使用了包名称。
这些开箱即用的机器学习模型可用于从半结构化或非结构化文档中分类和提取任何经常出现的数据点,包括采用无模板方法的常规字段、表格列和分类字段。
UiPath 提供的开箱即用机器学习包的版本为 0,并且已在您的租户上提供,这意味着无需下载。
下载仅适用于您已训练的版本 1 或更高版本。
Document Understanding 包含多个 ML 包,分为 5 个主要类别:
- UiPath 文档 OCR
- Document Understanding
- 文档分类器
- Out-of-the-box Pre-trained ML Packages
- AI Center 中开箱即用的预训练 DU ML 包
- 其他开箱即用的 ML 包
这是一个不可重新训练的模型,可与“UiPath 文档 OCR 引擎”活动一起使用,作为“数字化文档”活动的一部分。要使用此模型,首先必须将 ML 技能设为公开,以便将 URL 复制粘贴到 UiPath 文档 OCR 引擎活动中。
您可以在 GPU 或 CPU 上运行 UiPath 文档 OCR,两种情况下的准确性相同,GPU 上的训练速度比 CPU 快。有关更多详细信息,请查看硬件要求。
UiPath Document OCR 需要访问 https://du.uipath.com/metering 上的 Document Understanding 计量服务器,如果 ML 技能在内部部署 AI Center 常规部署上运行。内部部署 AI Center 离线部署不需要互联网访问。
此 ML 包的部署方式与 UiPathDocumentOCR ML 包相同,但有以下区别:
- 它针对在 CPU 上运行进行了优化,因此在工作流中运行时速度提高了 3-4 倍,并且将其导入 Document Manager 时速度提高了 5-10 倍
- 准确性略低于 UiPathDocumentOCR ML 包,但类似于 UiPath.DocumentUnderstanding.OCR.LocalServer Studio 包
- 由于速度更快,因此在没有 GPU 的情况下,当文档很大(每个文档超过 20 页)时,也建议使用 CPU,这是理想的选择。
这是一个通用、可重新训练的模型,用于从任何类型的结构化或半结构化文档中提取任何经常出现的数据点,从而从头开始构建模型。此 ML 包必须经过训练。如果在未事先进行训练的情况下部署此包,部署将失败,并显示错误,指明模型未经过训练。
这是一个通用、可重新训练的模型,用于对任何类型的结构化或半结构化文档进行分类,从而从头开始构建模型。此 ML 包必须经过训练。如果在未事先进行训练的情况下部署此包,部署将失败,并显示错误,指明模型未经过训练。
这些是可重新训练的 ML 包,其中包含不同机器学习模型的知识。
可以使用管道运行对这些包进行自定义,以提取其他字段或支持其他语言。使用最先进的迁移学习功能,您可以在其他已标记的文档上对此模型进行重新训练,并针对特定用例进行量身定制,或者将其扩展以支持拉丁语、西里尔语或希腊语等其他语言。
所使用的数据集可能具有相同的字段、字段的子集,或具有其他字段。要利用预训练模型中已包含的智能,您需要使用与开箱即用模型本身名称相同的字段。
这些 ML 包包括:
- 发票:可在此处找到开箱即用提取的字段。
- 澳大利亚发票:可在此处找到开箱即用提取的字段。
- 印度发票:可在此处找到开箱即用提取的字段。
-
日本发票
Preview
:可在此处找到开箱即用提取的字段。当前不支持使用来自验证站点的数据进行重新训练。
-
中国发票
Preview
:可在此处找到开箱即用提取的字段。当前不支持使用来自验证站点的数据进行重新训练。
- 收据:可在此处找到开箱即用提取的字段。
- 订单:可在此处找到开箱即用提取的字段。
- 水电费账单:可在此处找到开箱即用提取的字段。
- 身份证:可在此处找到开箱即用提取的字段。
- 护照:可在此处找到开箱即用提取的字段。
- 汇款通知书:可在此处找到开箱即用提取的字段。
- 提单:可以在此处找到开箱即用提取的字段。
- W2:可以在此处找到开箱即用提取的字段。
- W9:可以在此处找到开箱即用提取的字段。
- ACORD125:可以在此处找到开箱即用提取的字段
- I9:可以在此处找到开箱即用提取的字段
- 990
Preview
:可以在此处找到开箱即用提取的字段 - 4506T:可以在此处找到开箱即用提取的字段
- FM1003
Preview
:可以在此处找到开箱即用提取的字段 - ACORD25 - 可在此处找到开箱即用提取的字段
- 1040 - 可在此处找到开箱即用提取的字段
- 支票 - 可在此处找到开箱即用提取的字段
- 银行对账单 - 可在此处找到开箱即用提取的字段
- 财务报表 (Financial statements) - 可在此处找到开箱即用提取的字段
- 收据:可在此处找到开箱即用提取的字段
- ACORD131 - 可在此处找到开箱即用提取的字段
- ACORD126 - 可在此处找到开箱即用提取的字段
- ACORD140 - 可在此处找到开箱即用提取的字段
- 车辆所有权文件 - 可在此处找到开箱即用提取的字段
这些模型是 UiPath 构建的深度学习架构。可以在服务时和训练时使用 GPU,但这不是必需的。具体来说,GPU 可使训练速度提高 10 倍以上。
可以根据每个模型的预期用途将开箱即用的预训练 ML 包拆分为以下文档类别:
文档类别 |
ML 模型 |
---|---|
KYC |
|
保险 |
|
贷款 |
|
HR |
|
运输 |
|
应付账款 |
|
应收账款 |
|
费用 |
|