- 概述
- 入门指南
- 构建模型
- 使用模型
- ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 收据日本 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 公共端点
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 许可
- 如何
Document Understanding 新式项目用户指南
UiPath™ 文档路径
DocPath 大型语言模型 (LLM) 是我们最新的数据提取模型技术,旨在替换UiPath™ Document Understanding TM中使用的当前生成模型。 虽然 DocPath 的运行方式与以前的模型类似,但它是使用各种文档进行训练的。 这使其能够处理常见的文档类型,甚至几乎不需要训练。 DocPath LLM 的独特之处在于其生成式架构,该架构可显着提高准确性并简化提取。 此外,您还可以使用唯一的数据集来微调模型。
要进一步了解 DocPath 架构和用于训练的技术,请查看我们的 AI 博客中的DocPath页面。
与以前的模型相比,DocPath LLM 提供了许多增强功能。 它提高了准确性,尤其是表格的准确性,可适应各种文档布局以减少注释工作,并提高自动化率。
- 提高的准确性: DocPath LLM 为发票、收据和采购订单等半结构化文档提供了更高的准确率和卓越的 F1 分数。 这可确保提取精确一致的数据。
- 轻松注释: 该模型每个文档只需要一个注释,无需在每个页面上注释每个字段实例,从而减少了手动工作。
- 增强的自动化: 由于置信度级别和准确性之间的相关性更大,DocPath LLM 在提高自动化率的同时,还减少了在准确性级别相同的情况下发送到 Action Center 的文档数量。
从我们的内部测试来看,DocPath 的性能优于其前身。 它将误报率减少了约 15%,漏报率下降了近 17%。
DocPath LLM 仅适用于 Document Understanding 新式项目。 尽管引入了 DocPath,所有现有的项目版本仍将使用当前的模型版本。 这可确保无缝过渡,而不会中断正在进行的生产工作流。
要开始在 DocPath 上训练现有文档类型,请取消确认并确认几个文档中的所有字段。
The field names you choose can greatly impact the performance of the model. To ensure optimal results, use natural language and proper grammar for field names. You should only use widely recognized acronyms such as Number (No), Account (Acct), Address (Addr), and Apartment (Apt). Currently, only West European languages are supported, so make sure that the chosen field names align with these languages. Refrain from using non-descriptive names, such as "Column 3", unless the document specifically uses that terminology.
- The extracted fields must match exactly with the text in the documents. This process does not include summarization or other types of text analysis.
- Custom training is not applicable for the following document types. If you attempt to use DocPath for these, it will result in an error:
- 中国发票
- 希伯来语发票
- 日本发票