Document Understanding 用户指南

适用平台：

上次更新日期 2025年2月17日

硬件要求

在 GPU 上运行 Document Understanding^TM ML 包的过程包含一项旨在加速训练流程的优化。

因此，在 GPU 上训练的速度比在 CPU 上训练快 5 倍（以前是 10 到 20 倍）。这也使在 CPU 上训练多达 5000 页（以前最多为 500 页）的模型成为可能。

请注意，在 GPU 上训练 Document Understanding 模型时，GPU 至少需要具有 11GB 的视频 RAM 才能成功运行。

使用下表检查 ML 包、CUDA 版本和 GPU 驱动程序版本之间的兼容性。

ML 包版本	CUDA 版本	cudDNN 版本	NVIDIA 驱动程序（最低兼容版本）	硬件生成
2023.10	CUDA 11.8 或最新版本	cuDNN 8.2.0 或最新版本	R450.80.04	Ampere, Turing, Volta, Pascal, Maxwell, Kepler

CUDA 向后兼容，这意味着现有的 CUDA 应用程序可以继续与较新的 CUDA 版本一起使用。

有关兼容性的更多信息，请参见此处。

您可以使用 Document Understanding 框架通过 OCR 引擎读取文本、对文档进行分类以及从文档中提取信息。虽然分类和提取任务在 CPU 上运行，但建议在 GPU 上运行 OCR（尽管在 GPU 不可用的情况下，还提供 CPU 版本）。

本地部署使用 Automation Suite 并按照其硬件要求完成。

您可以对提取程序和分类器使用相同类型的虚拟机，唯一的区别是基础架构大小。我们建议将 OCR 引擎与 GPU 虚拟机一起使用。“兼容新矩阵”部分介绍了 ML 包、CUDA 版本和 GPU 驱动程序版本之间的兼容性。

让我们举一个实际中的例子，以更好地了解硬件要求。

ML 包	硬件要求	功能
提取程序包（发票、收据、采购订单等）	使用至少具有 2 个 CPU 内核和 8 GB RAM 的虚拟机	假设流量完全恒定（无峰值），每天可以处理 25,000 页或每年可以处理 500 万页文档。
分类器包（文档分类器）	使用至少具有 2 个 CPU 内核和 8 GB RAM 的虚拟机	假设流量完全恒定（无峰值），每天可以处理 40,000 个或每年可以处理 800 万个文档。
OCR	如果在 CPU 上运行，则至少需要 8 GB RAM。如果在 GPU 上运行，则无要求。	每天可处理 50,000 页。
OCR_CPU	至少需要 4 GB RAM。	每天可处理 50,000 页。