- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 公共端点
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 许可和计费逻辑
- 如何
Document Understanding 新式项目用户指南
关键概念
熟悉 UiPath™ Document UnderstandingTM 的核心概念。
主动学习是我们为 Document UnderstandingTM 创建模型的新式方法。
主动学习提供了一种交互式体验,其中学习算法可以查询用户,以使用所需的输出标记数据。此流程有助于将训练机器学习模型所需的时间和数据减少多达 80%。AI 用于指导流程,其中包括自动标注,这通常是最耗时的任务。该模型还使用内容丰富的数据集提供专家建议,以提高准确性。
使用主动学习,您还可以通过分析功能监控自动化。
文档类型是指根据文档的内容、格式、目的或其他区别因素对文档进行的分类。相关示例包括发票、收据、合同、报告、医疗记录、法律文档等。
- 结构化:旨在以特定格式收集信息的文档。例如,调查、税表、护照或许可证都属于结构化文档。
- 半结构化:不遵循严格格式,也不绑定到指定数据字段的文档。半结构化文档包括发票、收据、水电费账单、银行对账单等。
- 非结构化:不遵循特定或组织模式的文档。例如,合同、租约或新闻文章都属于非结构化文档。
要了解有关文档类型的更多信息,请查看文档类型部分。
ML 模型就像虚拟助理,经过训练,可以从数据中学习并做出预测或决策。这些模型本质上是学习根据历史数据识别模式的算法。它们接触的数据越多,随着时间推移,就越能改进自己的预测或决策。
您可以在 Document UnderstandingTM 中找到几个开箱即用的 ML 模型。这些模型可帮助您从半结构化或非结构化文档中分类和提取任何经常出现的数据点,而无需任何设置。
请查看“开箱即用模型”页面,以获取预训练模型及其字段的完整列表。
只要 OCR 能够以高置信度识别文档和文本,就可以在大多数语言上训练 ML 模型。
光学字符识别 (OCR) 是一种特殊技术,用于将不同类型的文档(例如扫描的纸质文档、PDF 文件或数码相机拍摄的图像)转换为可编辑和可搜索的数据。
OCR 引擎的准确性通常取决于原始文档的质量。采用可读字体的清晰且格式良好的文本通常会产生最佳输出。
有关 UiPath™ 提供的 OCR 引擎选项支持的语言的更多信息,请查看“OCR 支持的语言”页面。