- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding 流程:Studio 模板
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
About the IntelligentOCR activity package
UiPath.IntelligentOCR.Activities contains the infrastructure for enabling document processing flows using a complete, open, extensible approach.
已删除的版本 |
推荐版本 |
---|---|
4.3.0-预览版 | 4.4.0 预览版 |
4.5.2 |
2.1.0 | 2.2.0 | 2.3.0 |
4.0.1 |
1.4.0 | 1.5.0 | 1.6.0 | 1.6.1 | 2.0.0 | 2.0.1 |
2.0.2 |
1.2.0 | 1.2.1 | 1.3.0 |
1.3.2 |
- Starting with the v6.19.0 release, when installing the UiPath.IntelligentOCR.Activities package in a project, the UiPath.DocumentUnderstanding.ML.Activities package is automatically installed as well and you do not need to install it separately.
- If you are using UiPath® Studio 2023.4.4 or earlier, make sure to install the latest version of Windows .NET 6.0 Desktop Runtime.
Updating the UiPath.IntelligentOCR.Activities also requires an update for the UiPath.UIAutomation.Activities package and for UiPath.OCR.Activities package if included in the project.
UiPath.IntelligentOCR.Activities and UiPath.DocumentUnderstanding.Activities should not be used together in the same project. The UiPath.IntelligentOCR.Activities package should be used for Windows (or Legacy) workflows, while the UiPath.DocumentUnderstanding.Activities package should be used for Cross-platform workflows.
This section shows the multiple functionalities of the Intelligent.OCR package.
您可以使用“ 数字化文档” 活动来实现此目的。 这将 仅在必要时使用您选择的 OCR 引擎从任何 PDF 或图像中检索文本。
- 在逐个处理文档时,它们会经历数字化流程。 非数字(扫描)文档的区别在于,您需要应用所选的 OCR 引擎。 此步骤的输出是文档对象模型和包含所有文档文本的字符串变量,并将传递到后续步骤。
您可以使用“ 对 文档进行分类” 活动来实现此目的。 这允许使用任何分类算法来识别文件的文档类型。
数字化后,文档将进行分类。 如果您在同一个项目中使用多种文档类型,则要正确提取数据,您需要知道正在使用的文档类型。 重要的是,您可以在同一作用域中使用多个分类器,可以配置分类器,并稍后在框架中训练它们。 分类结果有助于在提取中应用正确的策略。
The following list shows the available classifiers:
- “ 基于关键字的分类 器”活动是此类分类器中的第一个,用于对已命名的文档进行分类。
- “ 智能关键字分类 器”活动不仅可以对包含多种文档类型的文件进行分类,还可以“拆分”文件。
- The Machine Learning Classifier activity can classify your files using a powerful ML Model, that can you can train according to your needs.
- The Generative Classifier activity allows you to classify documents using generative models.
您可以使用“ 呈现 Attended 的 站点分类 ”活动来实现此目的,该活动会提供一个特定于文档处理的用户界面,用于验证和更正自动分类输出。
- 特别是对于涉及文件拆分的用例,强烈建议使用人工分类验证步骤,以确保用于数据提取的下游处理正常工作。
- Attended 活动的替代方案是使用长时间运行的工作流,该工作流旨在以最佳方式实现人机协作。 “ 创建文档分类 Actions ” 和“ 等待文档分类 Actions 然后继续” 活动用于实现此场景。
您可以使用“ 训练分类器作用域 ”活动来实现此目的。 这使反馈循环能够关闭任何能够学习的分类算法。 将分类器训练器拖放到此“作用域”活动中,并使用“ 配置分类 器”向导启用它们,以确保分类器使用人工通过 分类站点 或 验证站点 验证的信息来提高自身性能。
分类与所使用的分类器一样有效。 如果文档未正确分类,则表示活动分类器未知该文档。 该框架提供了训练分类器的机会,以提高对文档类的识别。
The following is a list of the available classifier trainers:
- “ 基于关键字的分类器训练 器” 是与“ 基于关键字的分类器” 配对的训练器活动。
- 智能关键字分类器训练 器为 智能关键字分类器启用反馈循环。
- The Machine Learning Classifier Trainer is the trainer activity paired with the Machine Learning Classifier.
您可以使用“ 数据提取作用域 ”活动来实现此目的。 这允许使用任何数据提取算法来识别分类文档中的不同字段。
提取只是从给定的文档类型中获取您感兴趣的数据。 例如,如果要使用字符串操作来从 5 页文档中提取特定数据,则非常麻烦。 在此框架中,您可以在同一数据提取作用域内针对不同的文档结构使用不同的提取程序。 提取结果将进一步传递以进行验证。
The following is a list of available extractors:
- 基于正则表达式的提取程序 是一个基本的数据提取程序,它应用正则表达式匹配来识别特定字段的最佳候选者。
- 表单提取 程序使用预定义的模板来处理结构化的固定表单文档。
- The Machine Learning Extractor leverages the power of AI and Machine Learning to identify information in structured or semi-structured documents by either using one of UiPath®'s public data extraction services or by calling custom trained Machine Learning models that you can build and host in AI Center. This activity is part of the UiPath.DocumentUnderstanding.ML.Activities package.
- The Generative Extractor allows you to extract documents using generative models. This activity is part of the UiPath.DocumentUnderstanding.ML.Activities package.
您可以使用呈现 Attended 的 验证站点 活动来实现此目的,该活动提供了一个特定于文档处理的用户界面,用于数据验证和更正。
- 人类用户可以通过 验证站点验证提取的数据。 最佳实践是围绕是否添加人工验证步骤的决策构建逻辑,并根据要实施的特定用例使用规则。 然后可以导出验证结果,并将其用于进一步的自动化活动。
- 您还可以通过长时间运行的工作流启用人工验证,从而优化人机协作。 创建文档验证 Actions 和 等待文档验证 Actions 然后继续
。
您可以使用“ 训练提取程序作用域 ”活动来实现此目的。 这使任何能够学习的数据提取算法都可以关闭反馈循环。 将提取程序训练器拖放到此“作用域”活动中,并使用“ 配置提取 程序”向导启用,以确保提取程序使用人工通过“ 验证站点 ”验证的信息来提高自身性能。
- 与所使用的提取器一样,提取效率很高。 如果未正确提取字段值,则表示活动的提取程序不知道这些字段值。 该框架提供了培训提取程序的机会,以提高对字段值的识别。
- 机器学习提取程序训练器通过收集重新训练AI Center中托管的机器学习模型所需的数据,关闭了基于 ML 的数据提取的反馈循环。 此活动是机器学习提取程序的配套活动,并且属于UiPath.DocumentUnderstanding.ML.Activities包。
您可以使用“ 导出提取结果 ”活动来实现此目的。 这使您可以将提取的数据的复杂结构导出到简单的数据集(数据表集合)。
- 获得经过验证的信息后,您可以按原样使用它,也可以将其保存为数据表格式,该格式可以很容易地转换为 Excel 文件。
UiPath.IntelligentOCR.Activities 包与基于公共 UiPath.DocumentProcessing.Contracts 包构建的任何自定义分类或数据提取活动兼容。 它提供了充分的灵活性,让您可以构建特定于用例的算法,并将其与任何第三方解决方案集成以进行文档分类和数据提取。
以下版本的包已从官方订阅源中删除。 如果您有任何问题,请联系我们的支持团队。