activities
latest
false
- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
Document Understanding 活动
Last updated 2024年10月29日
生成式分类器 - 良好做法
生成式分类器允许您使用生成模型对文档进行分类。 您可以在此页面中找到有关如何使用生成式分类器充分利用工作流的提示和技巧。
假设您有大量合同,需要将其归入不同类别。 要使用生成式分类器优化此流程,请遵循本页中列出的良好做法。
要优化输入提示,请提供尽可能多的上下文。 提供每种文档类型的详细说明。 例如,在对发票进行分类时可以考虑以下文本: “发票是卖方向买方签发的文件,其中详细说明了所提供的产品或服务、数量和价格。其中包含卖方和买方的详细信息、发票编号、日期、到期总金额和付款条件。发票用于在业务事务中请求付款和保存记录”
为了使生成式模型有效运行,有必要提供广泛的上下文,而不是提供简短而模糊的文档式描述,这可能会导致明显的错误。
要优化工作流,请首先创建一个文件夹来移动已分类的文件,以避免冗余分类。
在自动化更大的数据集之前,创建一个示例文档集。 此示例集应包含已损坏且受密码保护的 PDF,以测试工作流。 建议您在工作流中加入“ Try Catch异常处理”活动,以防止由于 PDF 文件损坏或受密码保护而可能发生的故障。 完成“Try Catch 异常处理”活动后,即可在样本集上测试工作流,以确保其有效性。
在工作流中,缓存数字化结果(文档文本和文档对象模型)可在对同一个文件进行多次测试时节省时间。