Document Understanding 用户指南

适用平台：

上次更新日期 2024年12月12日

“智能 OCR”活动

借助“智能 OCR”活动，您可以全面处理文档，不仅可以对文档进行数字化、提取、分类和验证，还可以针对特定数据训练提取程序和分类器，提升提取速度与准确性。使用智能 OCR 活动创建Document Understanding ^TM流程涉及的步骤如下：

创建分类：定义文档类型，并使用“加载分类”活动将其转换为文档对象模型变量。
将文档数字化：准备文档，以便机器人可以使用 OCR 引擎处理这些文档，方法是将其文本存储在字符串变量中，并将有关它们的基本信息存储在文档对象模型文件中。
对文档进行分类：使用特定的分类器准备文档，以便机器人识别要处理的文件类型。
验证文档的分类：核实并验证文档是否已正确分类。
训练分类器：验证分类时根据收到的输入配置分类器
从文档中提取数据：使用各种提取程序从文档中识别并提取特定信息，然后将其发送以进行验证。
验证提取文档：使用 Action Center 中团队成员的输入核实和验证您处理、分类和提取的文档。
训练提取程序：验证提取时根据收到的输入配置提取程序。
消耗导出数据：验证提取的数据后，您可以按原样使用数据，也可以使用“导出提取结果”活动将其导出为数据集变量。