document-understanding
latest
false
- 概述
- 入门指南
- 构建模型
- 使用模型
- ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 公共端点
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 许可
- 如何
Document Understanding 新式项目用户指南
Last updated 2024年11月14日
构建
本部分会介绍以下体验:
- 上传文档并自动对其进行分类。
- 直接将文档上传到文档类型中。
- 管理项目中的文件(添加、删除文件,以及添加、更改标签)。
- 标注文档。
- 添加或删除字段。
- 获得有关使用建议训练分类和提取模型的指导性体验。
成功创建项目并将文档上传到特定文档类型后,系统会自动为文档预添加批注。这是根据文档类型的架构,将生成式和专用模型结合使用来完成的。架构明确定义了要从特定文档类型中提取的字段。要查找文档类型的架构,请转到“批注”页面并查看“字段”部分。
有关如何注释文档的详细信息,请查看注释文档操作方法页面。
您可以在“文档类型管理器”中编辑多个字段的设置。
为此,请选择要编辑的文档类型旁边的三点图标 ⋮,然后从菜单中选择“文档类型管理器”。
图 1. 选择文档类型管理器
要添加新字段,请选择“添加字段”并填写所需信息。您可以为每个字段添加或编辑以下选项:
- 字段名称:字段的唯一名称。
- 内容类型:字段的内容类型:
- 字符串:用于公司名称或地址,以及付款条款,或者当您想要在 RPA 工作流中的其他字段中手动构建解析逻辑或格式设置逻辑时,用于这些字段。
- 数字:用于金额或数量,具有小数/千位分隔符的智能解析功能。
- 日期:使用 YYYY-MM-DD 格式解析、格式化和统一输出。
- 电话:用于电话号码。设置格式会删除字母和括号,并将空格替换为短划线。
- ID 号:用于字母数字代码和 ID 号。它类似于字符串内容类型,但会删除
:
字符之前的所有字符。如果要提取的 ID 号可能包含:
字符,请改用string
内容类型,以避免数据丢失。
- 快捷键:字段的快捷键。允许使用一个键或两个键的组合。
- 高级设置:可用选项因所选字段的内容类型而异。选择所需字段的“高级设置”按钮以进行编辑:
图 2. 文档类型高级设置
- 字段 ID:字段的唯一 ID。
- 后处理:
- first_span:如果模型预测了文档内某一字段的多个实例,则让模型返回第一个实例。
- longest_value:如果模型预测了文档内某一字段的多个实例,则让模型返回字符数最多的值。
- highest_confidence:如果模型预测了文档内某一字段的多个实例,则让模型返回具有最高置信度的值。
- exact_match:只有当预测与真实值完全匹配时,预测才会被视为正确(分数为 1)。如果预测与真实值有差别,即使只是一个字符的不同,预测也会被视为不正确(分数为 0)。这是所有字段(“字符串”字段除外)的默认设置。
- levenshtein:根据预测与真实值之间的 Levenshtein 距离,预测被视为部分正确。示例:如果系统除最后 2 个字母之外正确预测了 10 个字母组成的值,则此预测的分数为 0.8。
- 日期格式:此字段仅适用于内容类型为“日期”的字段,并且指示如何解析和返回不明确的日期:
- 自动
- 美式:YYYY-DD-MM
- 非美式:YYYY-MM-DD
- Multi-line:跨越多个文本行的字段(地址或说明)需要检查此项目,否则系统将只返回第一行。
- Multi-value:字段将返回一个列表,其中包含在文档中检测到的所有值。
如果您在重新触发训练之前发布新的项目版本,则文档类型设置中的更改不会反映在新的项目版本中。
解决方法:为避免这种情况,请在修改文档类型字段后重新训练文档类型。在发布新版本之前,您可以通过标记或确认该类型的其他文档来完成此操作。
您可以在“模型设置”视图中更改文档类型设置。为此,请选择“模型设置”。
图 3. 模型设置
您可以更改以下设置:
- 基本模型:“建议操作”中使用的数据集大小估计值取决于用于训练的基本模型。使用与您的文档类型最相似的基本模型将减少所需的注释工作量。
- 语言数量:“建议操作”中使用的数据集大小估计值取决于数据集中语言的数量。通常情况下,语言越多,需要添加注释的数据就越多。
您可以按文档名称搜索上传的文档。为此,请使用“构建”部分左侧的搜索栏。为了更有效地搜索,请使用“筛选”功能,按以下条件筛选:
- 文档类型:从下拉列表中选择所需的文档类型。
- 上传日期:选择上传文档的日期间隔。
- 状态:选择文档的状态
您可以从右上角查看项目的总体分数。此分数是所有文档类型的分类器分数和提取程序分数的影响因素。单击“项目分数”以显示“衡量指标”部分。您可以在该部分中查看更深入的性能衡量指标。
您可以在“文档类型”部分单独查看每种文档类型的分数。此分数会影响模型的整体性能以及数据集的大小和质量。
注意:要获取项目分数,您需要上传至少 10 个文档。对于文档类型分数,您至少在同一文档类型下有 10 个文档。
如果选择分数标签,则可以查看模型的模型评分。模型评分是一项功能,旨在帮助您为分类模型的性能实现可视化。具体表现形式为 0 到 100 之间的模型分数,如下所示:
- 差 (0-49)
- 一般 (50-69)
- 良好 (70-89)
- 非常好 (90-100)
选择“详细模型分数”以转到“衡量指标”部分以获取详细信息。