Document Understanding - 导出文档

document-understanding

2021.10

false

Document Understanding 用户指南

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

导出文档

“导出文件”对话框用于轻松导出数据以训练 ML 模型。

单击管理栏中的“导出”按钮。

该对话框包含三个选项卡：

“立即导出”选项卡使您能够：

使用“下载”按钮将数据下载到本地。
使用“导出”按钮将数据导出到 AI Center。可以在 AI Center 中的 export 文件夹（“Datasets”>“database_name”>“export”）下找到已导出的文件夹。

如果您先下载数据集，然后再将该数据集上传到 AI Center，请确保在上传前解压缩数据集。

如果未定义架构，则禁用所有导出选项。

如果定义了架构，则必须输入导出名称，否则将禁用“下载”和“导出”按钮。有效名称最多可包含 24 个字符，并且不得包含特殊字符。

您可以选择以下导出选项：

“向后兼容导出”复选框使您能够应用旧版导出行为，即将每个页面导出为单独的文档。如果使用默认方式导出的已训练模型未达到预期效果，请尝试以下方法。取消选中此项以原始多页形式导出文档。

重要提示：

Data Manager 2021.10 发行版支持标记多页文档。与以前的版本相比（每个页面都需要单独标记），这是一个重大变化。标记和导出多页文档时，假设每个文档代表一个逻辑文档。例如，一个六页的文档可能包含单张六页的发票，但不应包含三张不同的发票（每张发票两页）。这对于评估集尤其重要。

此要求与向后兼容的导出无关。

要导出数据集，需要在至少 10 个不同的文档中为所有字段加上标签。否则，导出将失败，并显示以下消息：

对于分类字段，还存在另一个要求：需要在至少一个文档中为每个选项加上标签。否则，导出将失败，并显示以下消息：

仅导出评估集数据时，将禁用所有验证。

包含来自 Data Manager 的导出数据集的文件夹。这包括：

此处介绍计划导出功能。

“日志”选项卡显示最新的导出日志。

如果导出成功，日志将显示已处理的文档数量和导出持续时间。

如果架构导出成功，日志将显示导出持续时间。

在文件导出过程中，您可以查看导出状态。这对于大型导出尤其有用。

日志还会显示错误消息，例如：

如果自动重新训练成功，则还会显示数据集的 fine-tune 文件夹中的导入日志：

在此页面上

前一个搜索文档

下一个复选框和签名