ai-center
2024.10
true
- 发行说明
- 在开始之前
- 入门指南
- 安装 AI Center
- 迁移和升级
- 项目
- 数据集
- 数据标签
- ML 包
- 开箱即用包
- 管道
- ML 技能
- ML 日志
- AI Center 中的 Document Understanding™
- AI Center API
- 如何
- 管理节点安排
- 将自定义命名实体识别与持续学习结合使用
- 许可
- 基本故障排除指南
将自定义命名实体识别与持续学习结合使用
AI Center 用户指南
上次更新日期 2024年11月11日
将自定义命名实体识别与持续学习结合使用
本示例用于按研究论文中提及的类别提取化学物。按照以下过程提取化学物,并将其分类为 ABBREVIATION、FAMILY、FORMULA、IDENTIFIER、MULTIPLE、SYSTEMATIC、TRIVIAL 和 NO_CLASS。
何时使用自定义命名实体识别 (NER) 模型
使用自定义 NER 模型提取:
-
文本中的特殊信息。 此信息称为
entity
。 -
人名、地名、组织、地点、日期、数值等。 提取的实体互斥。 实体处于单个词或多词级别,而不是子词级别。 例如,在“我住纽约”句子中,实体可以是“纽约” ,但在“我读过纽约客”句子中则不可以。
您可以直接在信息提取流程中使用提取的实体,也可以将其用作下游任务(例如源文本的分类、源文本的情感分析、PHI 等)的输入。
训练数据集建议
- 如果样本中的实体很密集,则每个实体至少有 200 个样本,这意味着大多数样本(超过 75%)包含 3-5 个这样的实体。
- 如果实体稀疏(每个样本的实体少于三个),即大多数文档中只有少数实体出现,则建议每个实体至少有 400 个样本。 这有助于模型更好地理解区别性特征。
- 如果实体超过 10 个,请再以增量方式添加 100 个样本,直到达到所需的性能指标。
最佳实践
- 拥有有意义的实体;如果人类无法识别实体,则模型也无法识别实体。
- 拥有简单的实体。 不要将实体地址拆分为多个实体: 街道名称、州名称、城市名称或邮政编码等,而不是单个实体地址。
- 同时创建训练数据集和测试数据集,并使用完整管道进行训练。
- 从最低数量的注释样本开始,涵盖所有实体。
- 确保所有实体都包含在训练集和测试集拆分中。
- 运行完整管道并检查测试指标。 如果测试指标不理想,请检查分类报告并识别表现不佳的实体。 添加更多涵盖表现不佳的实体的样本,并重复训练过程,直到达到所需的指标。
此过程使用“自定义命名实体识别”包。有关此包的工作原理及其用途的更多信息,请参见自定义命名实体识别。
对于此过程,我们提供了如下示例文件:
按照以下步骤,按研究论文中的类别提取化学物。
要开始使用 Label Studio 并将数据导出至 AI Center,请按照以下说明操作。
- 在本地计算机或云实例上安装 Label Studio。为此,请按照此处的说明进行操作。
- 根据命名实体识别模板创建一个新项目,并定义“标签名称”。
- 确保标签名称没有特殊字符或空格。例如,使用
SetDate
代替Set Date
。 - 请确保
<Text>
标签的值为"$text"
。 - 使用此处的 API 上传数据。
cURL 请求示例:
curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\) --header 'Content-Type: application/json' \)\) --header 'Authorization: Token <Token>' \)\) --data-raw '[ { "data": { "text": "<Text1>" }, }, { "data": { "text": "<Text2>" } } ]'
curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\) --header 'Content-Type: application/json' \)\) --header 'Authorization: Token <Token>' \)\) --data-raw '[ { "data": { "text": "<Text1>" }, }, { "data": { "text": "<Text2>" } } ]' - 标注数据。
- 以 CoNLL 2003 格式导出数据,并将其上传到 AI Center。
- 在提供的示例工作流中提供了 Label Studio 实例 URL 和 API 密钥,以捕获错误的预测和低可信度预测。