- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 发票 2 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 收据 2 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 美国抵押贷款结算披露 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 许可和计费逻辑
- 如何
- 故障排除

Document Understanding 新式项目用户指南
- 上传文档并自动对其进行分类。
- 直接将文档上传到文档类型中。
- 管理项目中的文件(添加、删除文件)。
- 标注文档。
- 添加或删除字段。
- 获得有关使用建议训练分类和提取模型的指导性体验。
成功创建项目并将文档上传到特定文档类型后,系统会自动为文档预添加批注。这是根据文档类型的架构,使用专门的模型来完成的。架构明确定义了要从特定文档类型中提取的字段。要查找文档类型的架构,请转到“批注”页面并查看“字段”部分。
有关如何注释文档的详细信息,请查看注释文档操作方法页面。
您可以使用在验证站点中验证的文档,进一步提高模型的性能。
如果在验证步骤后作出任何更改,受影响文档类型会显示“待审核异常”按钮。
有关如何重新训练模型的更多深入信息,请查看“重新训练提取程序”指南页面。
您可以在“文档类型管理器”中编辑多个字段的设置。
为此,请选择要编辑的文档类型旁边的三点图标 ⋮,然后从菜单中选择“文档类型管理器”。
编辑或添加新字段
- 字段名称:字段的唯一名称。
- 内容类型:字段的内容类型:
- 字符串:用于公司名称或地址,以及付款条款,或者当您想要在 RPA 工作流中的其他字段中手动构建解析逻辑或格式设置逻辑时,用于这些字段。
- 数字:用于金额或数量,具有小数/千位分隔符的智能解析功能。
- 日期:使用 YYYY-MM-DD 格式解析、格式化和统一输出。
- 电话:用于电话号码。设置格式会删除字母和括号,并将空格替换为短划线。
- ID 号:用于字母数字代码和 ID 号。它类似于字符串内容类型,但会删除
:
字符之前的所有字符。如果要提取的 ID 号可能包含:
字符,请改用string
内容类型,以避免数据丢失。
- 快捷键:字段的快捷键。允许使用一个键或两个键的组合。
- 高级设置:可用选项因所选字段的内容类型而异。选择所需字段的“高级设置”按钮以进行编辑:
图 3. 文档类型高级设置
- 字段 ID:字段的唯一 ID。
- 后处理:
- first_span:如果模型预测了文档内某一字段的多个实例,则让模型返回第一个实例。
- longest_value:如果模型预测了文档内某一字段的多个实例,则让模型返回字符数最多的值。
- highest_confidence:如果模型预测了文档内某一字段的多个实例,则让模型返回具有最高置信度的值。
- exact_match:只有当预测与真实值完全匹配时,预测才会被视为正确(分数为 1)。如果预测与真实值有差别,即使只是一个字符的不同,预测也会被视为不正确(分数为 0)。这是所有字段(“字符串”字段除外)的默认设置。
- levenshtein:根据预测与真实值之间的 Levenshtein 距离,预测被视为部分正确。示例:如果系统除最后 2 个字母之外正确预测了 10 个字母组成的值,则此预测的分数为 0.8。
- 日期格式:此字段仅适用于内容类型为“日期”的字段,并且指示如何解析和返回不明确的日期:
- 自动
- 美式:YYYY-DD-MM
- 非美式:YYYY-MM-DD
- Multi-line:跨越多个文本行的字段(地址或说明)需要检查此项目,否则系统将只返回第一行。
- Multi-value:字段将返回一个列表,其中包含在文档中检测到的所有值。
如果您在重新触发训练之前发布新的项目版本,则文档类型设置中的更改不会反映在新的项目版本中。
解决方法:为避免这种情况,请在修改文档类型字段后重新训练文档类型。在发布新版本之前,您可以通过标记或确认该类型的其他文档来完成此操作。
模型设置
您可以在“模型设置”视图中更改文档类型设置。为此,请选择“模型设置”。
您可以更改以下设置:
- 基本模型:“建议操作”中使用的数据集大小估计值取决于用于训练的基本模型。使用与您的文档类型最相似的基本模型将减少所需的注释工作量。
- 语言数量:“建议操作”中使用的数据集大小估计值取决于数据集中语言的数量。通常情况下,语言越多,需要添加注释的数据就越多。
搜索字段名称
您可以搜索可用的字段名称。为此,请使用“文档类型管理器”界面左上角的搜索栏。为了更高效地搜索,请使用“筛选”功能按“内容类型”进行筛选。
删除字段
在要删除的字段旁边选择“删除”。
- 文档类型:从下拉列表中选择所需的文档类型。
- 上传日期:选择上传文档的日期间隔。
- 状态:选择文档的状态。
- 标签:选择要筛选的标签。
您可以从右上角查看项目的总体分数。此分数是所有文档类型的分类器分数和提取程序分数的影响因素。选择“项目分数”以显示“衡量指标”部分。您可以在该部分中查看更深入的性能衡量指标。
您可以在“文档类型”部分单独查看每种文档类型的分数。此分数会影响模型的整体性能以及数据集的大小和质量。
- 差 (0-49)
- 一般 (50-69)
- 良好 (70-89)
- 非常好 (90-100)
选择“详细模型分数”以转到“衡量指标”部分以获取详细信息。