- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
关于“智能 OCR”活动包
UiPath™.IntelligentOCR.Activities 包含使用完整、开放、可扩展的方法启用文档处理流程的基础架构。
下表显示了已删除的包版本,以及建议使用的版本。
已删除的版本 |
推荐版本 |
---|---|
4.3.0-预览版 | 4.4.0 预览版 |
4.5.2 |
2.1.0 | 2.2.0 | 2.3.0 |
4.0.1 |
1.4.0 | 1.5.0 | 1.6.0 | 1.6.1 | 2.0.0 | 2.0.1 |
2.0.2 |
1.2.0 | 1.2.1 | 1.3.0 |
1.3.2 |
- 从v6.19.0版本开始,在项目中安装UiPath™.IntelligentOCR.Activities包时,系统还会自动安装UiPath™.DocumentUnderstanding.ML.Activities包,您无需单独安装。
- 如果您使用的是UiPath™ Studio 2023.4.4 或更早版本,请确保安装最新版本的 Windows .NET 6.0 Desktop Runtime。
更新UiPath™.IntelligentOCR.Activities 时,还需要更新UiPath™.UIAutomation.Activities包和UiPath™.OCR.Activities包(如果项目中包含这些包)。
UiPath™.IntelligentOCR.Activities和UiPath™.DocumentUnderstanding.Activities不应在同一项目中一起使用。 UiPath™.IntelligentOCR.Activities包应用于 Windows(或旧版)工作流,而UiPath™.DocumentUnderstanding.Activities包应用于跨平台工作流。
本节显示 Intelligent.OCR 包的多种功能。
您可以使用“ 数字化文档” 活动来实现此目的。 这将 仅在必要时使用您选择的 OCR 引擎从任何 PDF 或图像中检索文本。
在逐个处理文档时,它们会经历数字化流程。 非数字(扫描)文档的区别在于,您需要应用所选的 OCR 引擎。 此步骤的输出是文档对象模型和包含所有文档文本的字符串变量,并将传递到后续步骤。
您可以使用“ 对 文档进行分类” 活动来实现此目的。 这允许使用任何分类算法来识别文件的文档类型。
数字化后,文档将进行分类。 如果您在同一个项目中使用多种文档类型,则要正确提取数据,您需要知道正在使用的文档类型。 重要的是,您可以在同一作用域中使用多个分类器,可以配置分类器,并稍后在框架中训练它们。 分类结果有助于在提取中应用正确的策略。
以下列表显示了可用的分类器:
您可以使用“ 呈现 Attended 的 站点分类 ”活动来实现此目的,该活动会提供一个特定于文档处理的用户界面,用于验证和更正自动分类输出。
特别是对于涉及文件拆分的用例,强烈建议使用人工分类验证步骤,以确保用于数据提取的下游处理正常工作。
有人值守的活动的替代方案是使用长时间运行的工作流,该工作流旨在以最佳方式实现人机协作。 创建文档分类操作和等待文档分类操作然后继续活动支持此场景。
您可以使用“ 训练分类器作用域 ”活动来实现此目的。 这使反馈循环能够关闭任何能够学习的分类算法。 将分类器训练器拖放到此“作用域”活动中,并使用“ 配置分类 器”向导启用它们,以确保分类器使用人工通过 分类站点 或 验证站点 验证的信息来提高自身性能。
分类与所使用的分类器一样有效。 如果文档未正确分类,则表示活动分类器未知该文档。 该框架提供了训练分类器的机会,以提高对文档类的识别。
以下是可用的分类器训练器列表:
- “ 基于关键字的分类器训练 器” 是与“ 基于关键字的分类器” 配对的训练器活动。
- 智能关键字分类器训练 器为 智能关键字分类器启用反馈循环。
- “机器学习分类训练器” 是与“机器学习分类器” 配对的训练器活动。
您可以使用“ 数据提取作用域 ”活动来实现此目的。 这允许使用任何数据提取算法来识别分类文档中的不同字段。
提取只是从给定的文档类型中获取您感兴趣的数据。 例如,如果要使用字符串操作来从 5 页文档中提取特定数据,则非常麻烦。 在此框架中,您可以在同一数据提取作用域内针对不同的文档结构使用不同的提取程序。 提取结果将进一步传递以进行验证。
以下是可用提取程序的列表:
- 基于正则表达式的提取程序 是一个基本的数据提取程序,它应用正则表达式匹配来识别特定字段的最佳候选者。
- 表单提取 程序使用预定义的模板来处理结构化的固定表单文档。
- 机器学习提取程序利用 AI 和机器学习的功能,通过使用UiPath™的公共数据提取服务之一或调用您可以在其中构建和托管的经过自定义训练的机器学习模型,识别结构化或半结构化文档中的信息AI Center 此活动是UiPath™.DocumentUnderstanding.ML.Activities包的一部分。
- 生成提取程序允许您使用生成模型提取文档。 此活动是UiPath™.DocumentUnderstanding.ML.Activities包的一部分。
您可以使用呈现 Attended 的 验证站点 活动来实现此目的,该活动提供了一个特定于文档处理的用户界面,用于数据验证和更正。
- 人类用户可以通过 验证站点验证提取的数据。 最佳实践是围绕是否添加人工验证步骤的决策构建逻辑,并根据要实施的特定用例使用规则。 然后可以导出验证结果,并将其用于进一步的自动化活动。
- 您还可以使用“创建文档验证操作”和“等待文档验证操作并继续”活动,通过长时间运行的工作流来启用人工验证,从而优化人机协作。
您可以使用“ 训练提取程序作用域 ”活动来实现此目的。 这使任何能够学习的数据提取算法都可以关闭反馈循环。 将提取程序训练器拖放到此“作用域”活动中,并使用“ 配置提取 程序”向导启用,以确保提取程序使用人工通过“ 验证站点 ”验证的信息来提高自身性能。
与所使用的提取器一样,提取效率很高。 如果未正确提取字段值,则表示活动的提取程序不知道这些字段值。 该框架提供了培训提取程序的机会,以提高对字段值的识别。
机器学习提取程序训练器通过收集重新训练AI Center中托管的机器学习模型所需的数据,关闭了基于 ML 的数据提取的反馈循环。 此活动是机器学习提取程序的配套活动,并且属于UiPath.DocumentUnderstanding.ML.Activities包。
您可以使用“ 导出提取结果 ”活动来实现此目的。 这使您可以将提取的数据的复杂结构导出到简单的数据集(数据表集合)。
获得经过验证的信息后,您可以按原样使用它,也可以将其保存为数据表格式,该格式可以很容易地转换为 Excel 文件。
UiPath.IntelligentOCR.Activities包与基于公共UiPath.DocumentProcessing.Contracts包构建的任何自定义分类或数据提取活动兼容。 它提供了完全的灵活性,可以根据您的用例构建自己的算法,也可以将其与任何第三方解决方案集成以进行文档分类和数据提取。
以下版本的包已从官方订阅源中删除。 如果您有任何问题,请联系我们的支持团队。