document-understanding
2023.10
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 用户指南

上次更新日期 2025年11月6日

使用 Document Manager

本页介绍如何使用 Document Manager 为新的数据集添加标签并重新训练 ML 模型。

Access and configure Document Manager

在“首次运行体验”中启动创建的数据标签会话,然后转到设置以配置 OCR。

“OCR 方法”下拉菜单中选择要使用的 OCR。对于UiPath 文档 OCR ,粘贴Document Understanding TM许可证密钥(从“管理员” > “许可证”页面检索 Document Understanding API 密钥),然后粘贴部署 UipathDocumentOCR时生成的 OCR URL。



请按照此处的说明,使用已部署的模型配置预加标记。粘贴模型公共 ML 技能端点和 Document Understanding 许可证密钥,然后选择“保存”。



有关更多详细信息,请查看此处的文档:使用预定义架构

导入文档

  1. 选择 Document Manager 会话中的“导入”按钮docs image
  2. 为数据集命名,然后选择“浏览要上传的文件”。
  3. 选择要上传的文档。
  4. 选择“是”

创建提取字段

选择 加号图标 以创建要提取的字段。

您最多可以创建 40 个字段。

对于此验证练习,您可以创建一些常见的发票字段,例如日期名称发票编号总计。请确保相应地更改内容类型 - 日期(日期)、名称(字符串)、发票编号(字符串)和总计(数字)。



标注文档

现在,您可以开始为文档添加标签了。

选择顶部的“预测”按钮 “预测”图标,使用基本发票模型预测已定义字段的标记,并在预测错误时更正。

要更改标记,请将鼠标拖动到字段上方,然后点击键盘快捷键为其添加标记。

使用顶部的箭头切换到下一个文档,直到完成所有已上传发票的标签验证。

注意:由于发票基本模型运行良好,并且示例发票很简单,没有太多的变化,因此在这种情况下,预测准确度接近 100%,您可能不需要更正任何标签。

导出文档

  1. 确保在数据集筛选中选择正确的数据集,然后选择“导出”按钮 “导出”图标
  2. 选择 “导出”
  3. 转到同一 AI Center 项目下的“数据集”,您应该能够看到导出的训练数据集。

在 AI Center 上训练自定义模型

  1. 转到“管道”>“新建”。请选择评估运行类型,选择模型包和输入数据集。
  2. 选择“导出”下的子文件夹作为输入数据集。
  3. 选择“创建”以启动管道。可能需要 1 到 2 个小时的时间管道才能在 CPU 计算机上运行。

将重新训练的 ML 模型部署为 ML 技能

转到“ML 技能”,然后创建新的 ML 技能。

选择之前创建的相同发票模型包。由于我们已重新训练模型,因此现在有一个新的次要包版本(1 与 0)。请务必选择最新版本。

创建 ML 技能后,请转到“修改当前部署”以公开 ML 技能。切换开关,然后选择“确认”。

复制公共 ML 技能的 URL 以备后用。



恭喜!您现在已使用自己的数据集重新训练了Invoice模型,并创建了用于访问该模型的端点。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo
信任与安全
© 2005-2025 UiPath。保留所有权利。