document-understanding
latest
false
- 概述
- 入门指南
- 构建模型
- 使用模型
- ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 公共端点
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 许可
- 如何
Document Understanding 新式项目用户指南
Last updated 2024年11月14日
迁移传统项目
使用此页面中的说明迁移传统项目或基于 AI Center 的项目。迁移项目有两个主要步骤:
- 从传统项目或基于 AI Center 的项目导出数据集。
- 将数据集导入新式项目。
- 目前,不支持导入超过 3000 页的数据集。只能成功导入前 3000 页,导入任何其他页面都将失败。例如,如果您的数据集包含 2999 页,并且您尝试导入 4 页的文档,则该过程将不会成功。
- 批次名称和相应的批次结果当前不可用。如果您的数据已组织为批次,则系统不会显示此信息,但会保存此信息。
导入数据集后,系统即会开始模型训练。训练完成后,将显示模型分数。要查看详细的模型分数,请选择分数,然后选择“详细模型分数”。
此操作将带您进入衡量页面,您可以在其中访问详细的模型指标。
当使用相同的数据集训练 ML 两次时,您可以观察到略有不同的模型指标。发生这种情况的原因如下:
- 初始化:机器学习使用需要初始猜测的优化方法来触发优化算法。由于这些算法的不可预测性,每次训练期间不同的初始猜测可能会导致不同的结果。
- 随机状态:某些算法在其操作中使用随机性。例如,在训练神经网络时,随机梯度下降和小批量梯度下降等过程会引入随机性。因此,即使初始模型参数和数据集相同,模型的性能在不同的运行中也可能有所不同。
- 正则化:某些算法包含鼓励模型保持较小权重的惩罚项。由于涉及随机性,模型每次都可以使用不同的权重集运行。
但是,请务必注意,这些细微差别并不一定意味着一个模型优于或不如另一个模型。即使指标略有不同,只要差异不是很大,模型理解数据的能力基本上保持不变。此外,多次重复此过程并取平均值应该会产生类似的性能指标。
对于传统项目,有多种方法可用于导出数据。并非所有类型的导出数据都可以导入到新式项目中。为比较两种项目类型的模型结果,请按“训练集和验证集”筛选文档,然后选择“选择搜索结果”以导出数据集。有关各个选项的更多信息,请查看以下表格。
导出类型 | 导出数据 | 导入的数据会发生什么情况 |
---|---|---|
当前搜索结果 | 导出当前筛选的数据集。与“训练集和验证集”筛选器一起使用。 | 标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。
提示:要比较两种项目类型之间的模型结果,请始终将数据集导出和导入为“训练和验证”。
|
全部已添加标签 | 从数据集中导出所有带批注的文档:
|
|
架构 | 导出字段列表及其各自的设置。 | 如果没有架构,则导入架构。如果已定义架构,则导入将失败。 |
全部 | 导出所有带注释和不带注释的文档。 |
|