- 概述
- 入门指南
- 构建模型
- 使用模型
- ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- 990 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 公共端点
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 许可
- 如何
构建
- 上传文档并自动对其进行分类。
- 直接将文档上传到文档类型中。
- 管理项目中的文件(添加、删除文件以及添加、更改标签)。
- 标注文档。
- 添加或删除字段。
- 添加或删除业务规则。
- 获得有关使用建议训练分类和提取模型的指导性体验。
After successfully creating your project and uploading your documents to a specific document type, they are automatically pre-annotated. This is done using a combination of generative and specialized models, based on the document type's schema. The schema clearly defines the fields you want to extract from a particular document type. To find the document type's schema, go to the Annotation page and check the Fields section.
For more in-depth information on how to annotate your documents, check the Annotate documents how-to page.
您可以在“文档类型管理器”中编辑多个字段的设置。
为此,请选择要编辑的文档类型旁边的三点图标 ⋮,然后从菜单中选择“文档类型管理器”。
- 字段名称:字段的唯一名称。
- 内容类型:字段的内容类型:
- 字符串:用于公司名称或地址,以及付款条款,或者当您想要在 RPA 工作流中的其他字段中手动构建解析逻辑或格式设置逻辑时,用于这些字段。
- 数字:用于金额或数量,具有小数/千位分隔符的智能解析功能。
- 日期:使用 YYYY-MM-DD 格式解析、格式化和统一输出。
- 电话:用于电话号码。设置格式会删除字母和括号,并将空格替换为短划线。
- ID 号:用于字母数字代码和 ID 号。它类似于字符串内容类型,但会删除
:
字符之前的所有字符。如果要提取的 ID 号可能包含:
字符,请改用string
内容类型,以避免数据丢失。
- 快捷键:字段的快捷键。允许使用一个键或两个键的组合。
- 高级设置:可用选项因所选字段的内容类型而异。选择所需字段的“高级设置”按钮以进行编辑:
图 2. 文档类型高级设置
- 字段 ID:字段的唯一 ID。
- 后处理:
- first_span:如果模型预测了文档内某一字段的多个实例,则让模型返回第一个实例。
- longest_value:如果模型预测了文档内某一字段的多个实例,则让模型返回字符数最多的值。
- highest_confidence:如果模型预测了文档内某一字段的多个实例,则让模型返回具有最高置信度的值。
- exact_match:只有当预测与真实值完全匹配时,预测才会被视为正确(分数为 1)。如果预测与真实值有差别,即使只是一个字符的不同,预测也会被视为不正确(分数为 0)。这是所有字段(“字符串”字段除外)的默认设置。
- levenshtein:根据预测与真实值之间的 Levenshtein 距离,预测被视为部分正确。示例:如果系统除最后 2 个字母之外正确预测了 10 个字母组成的值,则此预测的分数为 0.8。
- 日期格式:此字段仅适用于内容类型为“日期”的字段,并且指示如何解析和返回不明确的日期:
- 自动
- 美式:YYYY-DD-MM
- 非美式:YYYY-MM-DD
- Multi-line:跨越多个文本行的字段(地址或说明)需要检查此项目,否则系统将只返回第一行。
- Multi-value:字段将返回一个列表,其中包含在文档中检测到的所有值。
如果您在重新触发训练之前发布新的项目版本,则文档类型设置中的更改不会反映在新的项目版本中。
解决方法:为避免这种情况,请在修改文档类型字段后重新训练文档类型。在发布新版本之前,您可以通过标记或确认该类型的其他文档来完成此操作。
您可以在“模型设置”视图中更改文档类型设置。为此,请选择“模型设置”。
您可以更改以下设置:
- 基本模型:“建议操作”中使用的数据集大小估计值取决于用于训练的基本模型。使用与您的文档类型最相似的基本模型将减少所需的注释工作量。
- 布局数量:“建议操作”中使用的数据集大小估计值取决于数据集中布局的数量。通常情况下,布局越多,需要添加注释的数据就越多。
- 语言数量:“建议操作”中使用的数据集大小估计值取决于数据集中语言的数量。通常情况下,语言越多,需要添加注释的数据就越多。
- 文档类型:从下拉列表中选择所需的文档类型。
- 上传日期:选择上传文档的日期间隔。
- 状态:选择文档的状态
您可以从右上角查看项目的总体分数。此分数是所有文档类型的分类器分数和提取程序分数的影响因素。单击“项目分数”以显示“衡量指标”部分。您可以在该部分中查看更深入的性能衡量指标。
您可以在“文档类型”部分单独查看每种文档类型的分数。此分数会影响模型的整体性能以及数据集的大小和质量。
- 差 (0-49)
- 一般 (50-69)
- 良好 (70-89)
- 非常好 (90-100)
选择“详细模型分数”以转到“衡量指标”部分以获取详细信息。