- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 4506T - ML 包
- 990 - ML 包 - 预览
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 护照 - ML 包
- 工资单 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 硬件要求
- 管道
- Document Manager
- OCR 服务
- 深度学习
- 部署在 Automation Suite 中的 Document Understanding
- 安装和使用
- 首次运行体验
- 部署 UiPath 文档 OCR
- 部署开箱即用的 ML 包
- 使用 Document Manager
- 使用框架
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- Activities (活动)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding 用户指南
本页介绍如何使用 Document Manager 为新的数据集添加标签并重新训练 ML 模型。
Access and configure Document Manager
在“首次运行体验”中启动创建的数据标签会话,然后转到设置以配置 OCR。
在“OCR 方法”下拉菜单中选择要使用的 OCR。对于UiPath 文档 OCR ,粘贴 Document Understanding TM许可证密钥(从“管理” > “许可证”页面检索 Document Understanding API 密钥),然后粘贴部署 UiPath 文档 OCR 时生成的 OCR URL。请查看部署 UiPath 文档 OCR 。
按照部署开箱即用 ML 包中描述的说明,使用已部署的模型配置预加标签。粘贴模型公共 ML 技能端点 和 Document Understanding 许可证密钥,然后选择“保存” 。
有关更多详细信息,请查看此处的文档:使用预定义架构。
导入文档
- Select the Import button
from a Document Manager Session. - 为数据集命名,然后选择浏览要上传的文件。
- 选择要上传的文档。
- 选择“是”。
创建提取字段
Select
to create fields to be extracted.
您最多可以创建 40 个字段。
对于此验证练习,您可以创建一些常见的发票字段,例如日期、名称、发票编号和总计。请确保相应地更改内容类型 - 日期(日期)、名称(字符串)、发票编号(字符串)和总计(数字)。
标注文档
现在,您可以开始为文档添加标签了。
Select the Predict button
on top to use the base invoice model to predict the labels for the defined fields, and correct it if the prediction is wrong.
要更改标记,请将鼠标拖动到字段上方,然后点击键盘快捷键为其添加标记。
使用顶部的箭头切换到下一个文档,直到完成所有已上传发票的标签验证。
由于发票基本模型运行良好,并且示例发票很简单,没有太多的变化,因此在这种情况下,预测准确度接近 100%,您可能不需要更正任何标签。
导出文档
- Make sure to select the correct dataset in the dataset filtering and select the Export button
. - 选择“导出” 。
- 转到同一 AI Center 项目下的“数据集”,您应该能够看到导出的训练数据集。
在 AI Center 上训练自定义模型
- 转到“管道”>“新建”。请选择评估运行类型,选择模型包和输入数据集。
- 选择“导出”下的子文件夹作为输入数据集。
- 选择“创建”以启动管道。可能需要 1 到 2 个小时的时间管道才能在 CPU 计算机上运行。
将重新训练的 ML 模型部署为 ML 技能
转到“ML 技能”,然后创建新的 ML 技能。
选择之前创建的相同发票模型包。由于我们已重新训练模型,因此现在有一个新的次要包版本(1 与 0)。请务必选择最新版本。
创建 ML 技能后,请转到“修改当前部署”以公开 ML 技能。切换开关,然后选择“确认”。
复制公共 ML 技能的 URL 以备后用。
恭喜!您现在已使用自己的数据集重新训练了Invoice模型,并创建了用于访问该模型的端点。