document-understanding
2024.10
true
UiPath logo, featuring letters U and I in white
Document Understanding 用户指南
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年11月15日

使用 Document Manager

本页介绍如何使用 Document Manager 为新的数据集添加标签并重新训练 ML 模型。

Access and configure Document Manager

在“首次运行体验”中启动创建的数据标签会话,然后转到设置以配置 OCR。

在“ OCR 方法”下拉菜单中选择要使用的 OCR。 对于UiPath文档 OCR ,粘贴Document Understanding TM许可证密钥(从 “管理员”>“许可证”页面检索 Document Understanding API 密钥),然后粘贴部署 UiPath 文档OCR 时生成的 OCR URL。



请按照此处的说明,使用已部署的模型配置预加标签。粘贴模型公共 ML 技能端点和 Document Understanding 许可证密钥,然后单击“保存”



有关更多详细信息,请查看此处的文档:使用预定义架构

导入文档

  1. 选择 Document Manager 会话中的“导入”按钮docs image
  2. 为数据集命名,然后选择“浏览要上传的文件”。
  3. 选择要上传的文档。
  4. 单击“是”

创建提取字段

单击 以创建要提取的字段。

您最多可以创建 40 个字段。

对于此验证练习,您可以创建一些常见的发票字段,例如日期名称发票编号总计。请确保相应地更改内容类型 - 日期(日期)、名称(字符串)、发票编号(字符串)和总计(数字)。



标注文档

现在,您可以开始为文档添加标签了。

单击“预测”按钮以使用基本发票模型预测已定义字段的标签,并在预测错误时进行更正。

要更改标签,请将鼠标拖动到字段上方,然后点击键盘快捷键为其添加标签(例如,在下面的示例中,d 为日期添加标签)。

使用顶部的箭头切换到下一个文档,直到完成所有已上传发票的标签验证。

注意:由于发票基本模型运行良好,并且示例发票很简单,没有太多的变化,因此在这种情况下,预测准确度接近 100%,您可能不需要更正任何标签。

导出文档

  1. 确保在数据集筛选中选择正确的数据集,然后单击“导出”按钮 docs image
  2. 选择 “导出”
  3. 转到同一 AI Center 项目下的“数据集”,您应该能够看到导出的训练数据集。

在 AI Center 上训练自定义模型

  1. 转到“管道”>“新建”。请选择评估运行类型,选择模型包和输入数据集。
  2. 选择“导出”下的子文件夹作为输入数据集。
  3. 选择“创建”以启动管道。可能需要 1 到 2 个小时的时间管道才能在 CPU 计算机上运行。

将重新训练的 ML 模型部署为 ML 技能

转到“ML 技能”,然后创建新的 ML 技能。

选择之前创建的相同发票模型包。由于我们已重新训练模型,因此现在有一个新的次要包版本(1 与 0)。请务必选择最新版本。

创建 ML 技能后,请转到“修改当前部署”以公开 ML 技能。切换开关,然后单击“确认”

复制公共 ML 技能的 URL 以备后用。



恭喜!您现在已使用自己的数据集重新训练了Invoice模型,并创建了用于访问该模型的端点。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。