Document Understanding 新式项目用户指南

适用平台：

上次更新日期 2025年12月19日

迁移传统项目

使用此页面中的说明迁移基于 AI Center 项目。迁移项目有两个主要步骤：

目前，不支持导入超过3000 页的数据集。只能成功导入前3000 个页面，任何其他页面都将失败。例如，如果您的数据集包含2999页，并且您尝试导入 4 页的文档，则该过程将不会成功。
批次名称和相应的批次结果当前不可用。如果您的数据已组织为批次，则系统不会显示此信息，但会保存此信息。
不支持从 AI Center 导出。仅支持从 Document Manager 导出。

导航到要向其中导入数据的项目，并将其打开。
选择“添加文档类型”，然后创建新的自定义文档类型。

图 3. 添加文档类型
在新的自定义文档类型中，选择“上传”，然后选择已导出的传统项目的 zip 文件。等待上传完成。

注意：不支持从 AI Center 导出。仅支持从 Document Manager 导出。

图 4. 上传处理

上传完成后，文档即可用于训练。

导入数据集后，系统即会开始模型训练。训练完成后，将显示模型分数。要查看详细的模型分数，请选择分数，然后选择“详细模型分数”。

此操作将带您进入衡量页面，您可以在其中访问详细的模型指标。

当使用相同的数据集训练 ML 两次时，您可以观察到略有不同的模型指标。发生这种情况的原因如下：

初始化：机器学习使用需要初始猜测的优化方法来触发优化算法。由于这些算法的不可预测性，每次训练期间不同的初始猜测可能会导致不同的结果。
随机状态：某些算法在其操作中使用随机性。例如，在训练神经网络时，随机梯度下降和小批量梯度下降等过程会引入随机性。因此，即使初始模型参数和数据集相同，模型的性能在不同的运行中也可能有所不同。
正则化：某些算法包含鼓励模型保持较小权重的惩罚项。由于涉及随机性，模型每次都可以使用不同的权重集运行。

但是，请务必注意，这些细微差别并不一定意味着一个模型优于或不如另一个模型。即使指标略有不同，只要差异不是很大，模型理解数据的能力基本上保持不变。此外，多次重复此过程并取平均值应该会产生类似的性能指标。

如果传统项目的模型结果与新式项目的模型结果之间存在重大差异，则可能是由于基础模型不同所致。要更改基础模型，请继续执行以下步骤：

对于传统项目，有多种方法可用于导出数据。并非所有类型的导出数据都可以导入到新式项目中。为比较两种项目类型的模型结果，请按“训练集和验证集”筛选文档，然后选择“选择搜索结果”以导出数据集。有关各个选项的更多信息，请查看以下表格。

表 1. 导出类型
导出类型	导出数据	导入的数据会发生什么情况
当前搜索结果	导出当前筛选的数据集。与“训练集和验证集”筛选器一起使用。	标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。提示：要比较两种项目类型之间的模型结果，请始终将数据集导出和导入为“训练和验证”。
全部已添加标签	从数据集中导出所有带批注的文档：训练集验证集评估集	标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。系统会忽略标记为评估的文档。
架构	导出字段列表及其各自的设置。	如果没有架构，则导入架构。如果已定义架构，则导入将失败。
全部	导出所有带注释和不带注释的文档。	标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。系统会忽略标记为评估的文档。系统会预先批注未批注的文档，并将未批注的文档视为未确认。