document-understanding
latest
false
- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 公共端点
- 1040 - 文档类型
- 1040 附表 C - 文档类型
- 1040 附表 D - 文档类型
- 1040 附表 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 -文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文件类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文件类型
- 检查 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 单据类型
- 澳大利亚发票 - 文档类型
- 中国发票 - 文档类型
- 希伯来语发票 - 文档类型
- 印度发票 - 文档类型
- 日本发票 - 文档类型
- 装运发票 - 文档类型
- 装箱单 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- Receipts Japan - document type
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 水电费账单 - 文档类型
- 车辆所有权证明 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 许可
- 如何
- 故障排除
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 新式项目用户指南
上次更新日期 2025年5月15日
迁移传统项目
使用此页面中的说明迁移传统项目或基于 AI Center 的项目。迁移项目有两个主要步骤:
- 从传统项目或基于 AI Center 的项目导出数据集。
- 将数据集导入新式项目。
- 目前,不支持导入超过 3000 页的数据集。只能成功导入前 3000 页,导入任何其他页面都将失败。例如,如果您的数据集包含 2999 页,并且您尝试导入 4 页的文档,则该过程将不会成功。
- 批次名称和相应的批次结果当前不可用。如果您的数据已组织为批次,则系统不会显示此信息,但会保存此信息。
导入数据集后,系统即会开始模型训练。训练完成后,将显示模型分数。要查看详细的模型分数,请选择分数,然后选择“详细模型分数”。
此操作将带您进入衡量页面,您可以在其中访问详细的模型指标。
当使用相同的数据集训练 ML 两次时,您可以观察到略有不同的模型指标。发生这种情况的原因如下:
- 初始化:机器学习使用需要初始猜测的优化方法来触发优化算法。由于这些算法的不可预测性,每次训练期间不同的初始猜测可能会导致不同的结果。
- 随机状态:某些算法在其操作中使用随机性。例如,在训练神经网络时,随机梯度下降和小批量梯度下降等过程会引入随机性。因此,即使初始模型参数和数据集相同,模型的性能在不同的运行中也可能有所不同。
- 正则化:某些算法包含鼓励模型保持较小权重的惩罚项。由于涉及随机性,模型每次都可以使用不同的权重集运行。
但是,请务必注意,这些细微差别并不一定意味着一个模型优于或不如另一个模型。即使指标略有不同,只要差异不是很大,模型理解数据的能力基本上保持不变。此外,多次重复此过程并取平均值应该会产生类似的性能指标。
对于传统项目,有多种方法可用于导出数据。并非所有类型的导出数据都可以导入到新式项目中。为比较两种项目类型的模型结果,请按“训练集和验证集”筛选文档,然后选择“选择搜索结果”以导出数据集。有关各个选项的更多信息,请查看以下表格。
导出类型 | 导出数据 | 导入的数据会发生什么情况 |
---|---|---|
当前搜索结果 | 导出当前筛选的数据集。与“训练集和验证集”筛选器一起使用。 | 标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。
提示:要比较两种项目类型之间的模型结果,请始终将数据集导出和导入为“训练和验证”。
|
全部已添加标签 | 从数据集中导出所有带批注的文档:
|
|
架构 | 导出字段列表及其各自的设置。 | 如果没有架构,则导入架构。如果已定义架构,则导入将失败。 |
全部 | 导出所有带注释和不带注释的文档。 |
|