Communications Mining 用户指南

上次更新日期 2025年11月10日

常规字段提取

Communications Mining™ 从非结构化文本中提取以下类型的输出：

标签
通用字段

标签描述整个消息，例如“取消”、“交易失败”或“紧急”。通用字段引用消息的特定部分，例如交易对方名称、客户 ID 或取消日期。

在下游流程中，标签用于分类、优先级和决定应采取的操作类型。通用字段用于填写请求字段。例如，下游流程可能会筛选消息，使其成为具有取消标签的消息，然后使用提取的“客户 ID”和“取消日期”常规字段来调用 API 以自动处理取消。

Communications Mining 附带许多适用于常见概念的内置通用字段，例如组织、货币代码或日期。您可以自定义 Communications Mining 的内置通用字段，以便根据您的特定用例量身定制。例如，Communications Mining 具有经过严格训练的预构建“日期”通用字段，您可以将其用作自定义程度更高的通用字段的起点，例如“续订日期”或“取消日期”。或者，您可以从头开始，训练 Communications Mining 识别全新的内容。

配置常规字段

我们将使用保险用例作为示例。保险公司邮箱接收来自代理的电子邮件，应将其分类到不同的团队进行处理。在此示例中，数据集已经过训练，分类如下所示：

图 1.分类示例

此邮箱偶尔会收到紧急的续订请求、取消请求和管理员请求。Communications Mining™ 已经过训练，可以识别每个概念，并且 Communications Mining 预测可通过创建支持工单，将电子邮件分类到正确的团队。

为确保快速响应客户，我们可以提取一些关键数据点，以帮助下游团队处理请求。具体来说，我们要从电子邮件中提取保单编号、受保组织名称和经纪人名称。我们可以使用常规字段提取来执行此操作。

图 2.已配置的常规字段

由于保单编号格式特定于该特定保险公司，因此我们将常规字段配置为可从头开始训练。另一方面，参保组织是一种组织，因此我们根据内置的组织常规字段将其配置为可培训。最后，我们注意到代理并不总是将其名称输入到电子邮件中，因此我们决定使用代理电子邮件地址（可从注释元数据中获取）在内部数据库中查找相应的名称，而不是将其提取为常规字段。

下表总结了这些方法。

配置	何时使用	示例
不含基本通用字段的可训练通用字段	最常用于各种内部 ID，或者在 Communications Mining 中没有合适的基本常规字段时使用。	保单编号、客户 ID
具有基本通用字段的可训练通用字段	用于自定义 Communications Mining 中现有的预构建常规字段。	取消日期（基于日期）、受保组织（基于组织）
预构建的常规字段（不可训练）	用于应完全按照定义匹配的一般字段，否则训练会导致出错。	位于
使用注释元数据代替常规字段	当注释元数据中已以结构化形式显示所需信息时使用。	发件人地址、发件人域

在应用程序中使用常规字段

Communications Mining™ provides multiple ways of fetching predictions, including predicted general fields. Please consult the data download overview to understand which method will work best for your use case.

无论选择哪种方法，您都需要了解以下边缘情况，并在应用程序中进行处理：

响应中并未包含所有预期常规字段
响应包含一个或多个常规字段的多个匹配项
并非响应中显示的所有常规字段都正确

在本节中，我们将更详细地介绍每种边缘情况。

响应中并未包含所有常规字段

您应该预计会处理并非所有预期通用字段都存在的情况。在以下示例中，电子邮件包含保单编号，但没有受保的组织名称。您的应用程序应该能够处理此类部分信息。

图 3.缺少受保组织

响应包含一个或多个常规字段的多个匹配项

您还应该处理与上一情况相反的情况，即注释中包含比预期更多的通用字段的情况。在以下示例中，即使我们预计每个电子邮件都有一个保单编号和受保的组织名称，但该电子邮件具有多个保单编号。

图 4.同一通用字段的多个匹配项

请注意，在处理此类情况时，可以使用响应中的元数据。例如，我们可以选择优先选取电子邮件主题中出现的策略编号，而非电子邮件正文中显示的策略编号。以下示例显示了 API 将为我们的示例电子邮件返回的响应。

{
  "predictions": [
    {
      "uid": "aa05ba2250de48e3.7588b85f68f81c3b",
      "labels": [...],
      "entities": [
        {
          "id": "6a1d11118b60868e",
          "name": "policy-number",
          "span": {
            "content_part": "body",
            "message_index": 0,
            "utf16_byte_start": 200,
            "utf16_byte_end": 222,
            "char_start": 100,
            "char_end": 111
          },
          "kind": "policy-number",
          "formatted_value": "GHI-0204963"
        },
        {
          "id": "6a1d11118b60868e",
          "name": "policy-number",
          "span": {
            "content_part": "subject",
            "message_index": 0,
            "utf16_byte_start": 0,
            "utf16_byte_end": 22,
            "char_start": 0,
            "char_end": 11
          },
          "kind": "policy-number",
          "formatted_value": "GHI-0068448"
        },
        {...},
        {...},
        {...}
      ]
    }
  ],
  "model": {
    "version": 31,
    "time": "2021-07-14T15:00:57.608000Z"
  },
  "status": "ok"
}{
  "predictions": [
    {
      "uid": "aa05ba2250de48e3.7588b85f68f81c3b",
      "labels": [...],
      "entities": [
        {
          "id": "6a1d11118b60868e",
          "name": "policy-number",
          "span": {
            "content_part": "body",
            "message_index": 0,
            "utf16_byte_start": 200,
            "utf16_byte_end": 222,
            "char_start": 100,
            "char_end": 111
          },
          "kind": "policy-number",
          "formatted_value": "GHI-0204963"
        },
        {
          "id": "6a1d11118b60868e",
          "name": "policy-number",
          "span": {
            "content_part": "subject",
            "message_index": 0,
            "utf16_byte_start": 0,
            "utf16_byte_end": 22,
            "char_start": 0,
            "char_end": 11
          },
          "kind": "policy-number",
          "formatted_value": "GHI-0068448"
        },
        {...},
        {...},
        {...}
      ]
    }
  ],
  "model": {
    "version": 31,
    "time": "2021-07-14T15:00:57.608000Z"
  },
  "status": "ok"
}