document-understanding
2022.4
false
- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 管道
- Data Manager
- OCR 服务
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- 参考
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding 用户指南
微调
AI Center 包括使用人工利用验证站点验证的数据来微调 ML 模型的功能。
当 RPA 工作流使用现有 ML 模型处理文档时,某些文档可能需要使用 [呈现验证站点] (https://docs.uipath.com/zh-CN/activities/docs/present-validation-station) 活动(在 Attended 机器人上或使用 Orchestrator Action Center 的浏览器中提供)进行人工验证。
在“验证站点”中生成的已验证数据可以使用“机器学习提取程序训练器”活动导出,并可用于微调 AI Center 中的 ML 模型。
我们不建议使用来自验证站点的数据从头开始训练 ML 模型(即 DocumentUnderstanding ML 包),而仅用于微调现有 ML 模型(包括开箱即用模型)。
- 有关微调 ML 模型的详细步骤,请参阅 Document Manager 文档的“导入文档”部分。
-
有关如何构建用于微调的数据集的更多详细信息,请转到此处。
重要提示:始终将验证站点数据添加到同一个数据集,并在 ML 包次要版本 0 上进行训练
用户经常错误地认为,使用验证站点数据的方法是迭代地重新训练先前的模型版本,因此使用当前批次来训练包 X.1 以获取 X.2。然后,下一个批次在 X.2 上训练以获取 X.3,依此类推。以这种方式使用本产品是错误的。每个验证站点批次都需要导入到与最初手动标记的数据相同的 Document Manager 会话中,以创建更大的数据集,然后始终必须使用该数据集在 X.0 ML 包版本上进行训练。