communications-mining

latest

false

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

Communications Mining 開発者ガイド

最終更新日時 2025年2月10日

ラベルと一般フィールド

このページでは、 Communications Mining プラットフォームからダウンロードしたラベルと一般フィールドを解釈してアプリケーションで使用する方法について説明します。このページでは、ラベルと一般フィールドについて説明します。ダウンロードしたデータのどこにラベルがあるかを理解するには、選択したダウンロード方法のドキュメントを確認してください。

ラベル

コメントには、0 個、1 個、または複数の予測ラベルを付けることができます。以下の例では、2 つの予測ラベル (Order と Order > Missing) とその信頼度スコアを示します。この形式は、ほとんどの API ルートで使用されます。例外は、ラベル名をリストではなく文字列として書式設定する Dataset Export ルートです (ブラウザーでの CSV エクスポートとの一貫性を保つため)。

一部のルート (現在は [ルートの予測] ) では、ラベルの信頼度スコアが満たすしきい値名 ("high_recall"、"バランス"、"high_precision") のリストがオプションで返されます。これは、特に非常に大きな分類において、しきい値を手動で選択する代わりに便利です。アプリケーションでは、「high_recall」、「バランス」、または「high_precision」の結果に関心があるかどうかを決定し、選択した自動しきい値がないすべてのラベルを破棄し、残りのラベルを以前と同じように処理します。

データセットのエクスポートを除くすべてのルート

{
  "labels": [
    {
      "name": ["Order"],
      "probability": 0.6598735451698303
    },
    {
      "name": ["Order", "Missing"],
      "probability": 0.6598735451698303
    }
  ]
}{
  "labels": [
    {
      "name": ["Order"],
      "probability": 0.6598735451698303
    },
    {
      "name": ["Order", "Missing"],
      "probability": 0.6598735451698303
    }
  ]
}

データセットのエクスポート

{
  "labels": [
    {
      "name": "Order",
      "probability": 0.6598735451698303
    },
    {
      "name": "Order > Missing",
      "probability": 0.6598735451698303
    }
  ]
}{
  "labels": [
    {
      "name": "Order",
      "probability": 0.6598735451698303
    },
    {
      "name": "Order > Missing",
      "probability": 0.6598735451698303
    }
  ]
}

予測 (自動しきい値)

{
  "labels": [
    {
      "name": ["Order"],
      "probability": 0.6598735451698303,
      "auto_thresholds": ["high_recall", "balanced", "sampled_2"]
    },
    {
      "name": ["Order", "Missing"],
      "probability": 0.6598735451698303,
      "auto_thresholds": ["high_recall", "sampled_2"]
    }
  ]
}{
  "labels": [
    {
      "name": ["Order"],
      "probability": 0.6598735451698303,
      "auto_thresholds": ["high_recall", "balanced", "sampled_2"]
    },
    {
      "name": ["Order", "Missing"],
      "probability": 0.6598735451698303,
      "auto_thresholds": ["high_recall", "sampled_2"]
    }
  ]
}

Label オブジェクトの形式は次のとおりです。

名前	型	説明
`name`	Array<string> または String	データセットのエクスポートを除くすべての API ルート: 階層ラベルのリストとして書式設定された、予測されたラベルの名前。たとえば、[ 親ラベル] > [子ラベル ] というラベルの形式は、 `["Parent Label", "Child Label"]`になります。データセットのエクスポート API ルート: 階層ラベルを `" > "` 区切りた文字列として書式設定された、予測されたラベルの名前。
`probability`	Number	信頼度スコア。 0.0 から 1.0 までの数値。
`sentiment`	Number	センチメントスコア。 -1.0 から 1.0 までの数値。データセットでセンチメントが有効になっている場合にのみ返されます。
`auto_thresholds`	array<string>	ラベルの信頼度スコアが満たす、自動的に計算されるしきい値のリストです。しきい値は、(0.0 から 1 の間の値ではなく) わかりやすい名前として返されます。これを使用して、目的の信頼レベルを満たさないラベルを簡単に除外できます。しきい値名 "high_recall"、"バランス"、および "high_precision" は、3 つの増加する信頼レベルに対応します。追加の「sampled_0」..."sampled_5" しきい値は、データサイエンスアプリケーションの集計を実行するためのより高度な方法を提供し、コメントを 1 つずつ処理する場合は無視できます。

ラベルに関する FAQ

Q: Communications Mining プラットフォームからラベルをダウンロードするにはどうすればよいですか?

A: ラベルを提供するダウンロード方法には、Communications Mining API、 CSV ダウンロード、および Communications Mining コマンドラインツールがあります。利用可能なダウンロード方法の概要については「データのダウンロード」ページ、詳細な比較については以下のFAQ項目をご覧ください。

Q: すべてのダウンロード方法で同じ情報が提供されますか?

A: 以下の表に、ダウンロード方法の違いを示します。比較のために、Communications Mining Web UI の [探索] ページのラベルの説明を示します。

非決定論的方法

[探索] ページ、CSV のダウンロード、Communications Mining コマンドラインツール、および Export API エンドポイントにより、利用可能な最新の予測が提供されます。新しいモデルバージョンがトレーニングされた後、すべての予測が再計算される前に、最新のモデルバージョンと以前のモデルバージョンからの予測が混在することに注意してください。これらのメソッドは割り当てられたラベルを認識し、割り当て済みまたは信頼度スコア 1 で表示されます。

方式	割り当てられたラベル	予測ラベル
探索ページ	[検索] ページでは、割り当てられたラベルと予測されたラベルが視覚的に区別されます。割り当てられたラベルの信頼度スコアは報告されません。	[検索] ページは、モデルのトレーニングワークフローをサポートするように設計されているため、ユーザーがピン留めできる予測ラベルが選択されて表示されます。バランスのとれたしきい値 (そのラベルの F スコアから派生) を満たすラベルが優先的に表示されますが、ユーザーがピン留めする可能性がある場合は、提案として確率の低いラベルを表示することもできます。
エクスポート API	割り当てられたラベルを返します。	予測されたすべてのラベルを返します (しきい値は適用されません)。
CSV をダウンロードする	割り当てられたラベルの信頼度スコア 1 を返します。モデルの信頼度が高い場合、予測ラベルのスコアも 1 になることがあります。	予測されたすべてのラベルを返します (しきい値は適用されません)。
Communications Mining の CLI	コメントにラベルが割り当てられている場合は、そのコメントに割り当てられたラベルと予測されたラベルの両方を返します。	予測されたすべてのラベルを返します (しきい値は適用されません)。

決定論的方法

上記の非決定論的な方法とは対照的に、ストリーム API ルートと予測 API ルートは、特定のモデルバージョンからの予測を返します。そのため、これらの API ルートは、プラットフォームからコメントをダウンロードし、特定のモデルバージョンに対する予測のために送信したかのように動作し、割り当てられたラベルを認識しません。

方式	割り当てられたラベル	予測ラベル
ストリーム API と予測 API	割り当てられたラベルを認識しません。	信頼度スコアが指定されたラベルしきい値を超える (しきい値が指定されていない場合は既定値の 0.25 を上回る) 予測ラベルを返します。

オートメーションでラベルを使用する

メッセージごとに判断を下すアプリケーションを設計する場合は、各ラベルの信頼度スコアを「はい」または「いいえ」の回答に変換する必要があります。そのためには、予測が「はい、ラベルが適用されます」を意味していると見なす、最小信頼度スコアを決定します。この数値を信頼度スコアのしきい値と呼びます。

重要:

信頼度スコアのしきい値を選択する方法

よくある誤解は、実現したい精度と同じ値にしきい値を設定することです (「ラベルの正解率を 70% 以上にするため、信頼度スコアが 0.70 を超えるラベルを選択する」)。しきい値とその選択方法については、連携ガイドの「信頼度のしきい値」をご覧ください。

分析でのラベルの使用

分析アプリケーションで使用するためにラベルをエクスポートする場合は、信頼度スコアをユーザーに公開するかどうかを決定することが重要です。ビジネス分析アプリケーションのユーザーの場合は、「自動化」セクションで説明されているアプローチのいずれかを使用して、信頼度スコアをラベルの有無に変換する必要があります。一方、確率的データの操作に習熟しているデータサイエンスアプリケーションのユーザーは、生の信頼度スコアにアクセスできるというメリットがあります。

重要な考慮事項は、分析アプリケーションのすべての予測が同じモデルバージョンからのものであることを確認することです。新しいモデルバージョンから予測を取得するように統合をアップグレードする場合、データの一貫性を維持するために、すべての予測を再取り込みする必要があります。

ラベルのプロパティ

データセットにサービス品質 (QoS) ラベルが追加されている場合は、予測の応答に各コメントのサービス品質 (QoS) スコアが含まれます。データセットでトーンが有効化されている場合は、予測の応答に各コメントのトーンスコアが含まれます。どちらのスコアも、応答の label_properties の部分にあります。

{
  "label_properties": [
    {
      "property_id": "0000000000000001",
      "property_name": "tone",
      "value": -1.8130283355712891
    },
    {
      "id": "0000000000000002",
      "name": "quality_of_service",
      "value": -3.006324252113699913
    }
  ]
}{
  "label_properties": [
    {
      "property_id": "0000000000000001",
      "property_name": "tone",
      "value": -1.8130283355712891
    },
    {
      "id": "0000000000000002",
      "name": "quality_of_service",
      "value": -3.006324252113699913
    }
  ]
}

ラベルプロパティオブジェクトの形式は次のとおりです。

名前	型	説明
`name`	string	ラベルプロパティの名前。
`id`	string	ラベルプロパティの内部 ID。
`value`	Number	ラベルプロパティの値。 -10 から 10 までの値。

一般フィールド

コメントには、0 個、1 個、または複数の予測一般フィールドを含めることができます。以下の例は、1 つの予測された order_number エンティティを示しています。ラベルと異なり、全般フィールドには信頼度スコアが関連付けられませんのでご注意ください。

"entities": [
    {
        "id": "0abe5b728ee17811",
        "name": "order_number",
        "span": {
            "content_part": "body",
            "message_index": 0,
            "utf16_byte_start": 58,
            "utf16_byte_end": 76,
            "char_start": 29,
            "char_end": 38
        },
        "name": "order_number",
        "kind": "order_number", # deprecated
        "formatted_value": "ABC-123456",
        "capture_ids": []
    }
]"entities": [
    {
        "id": "0abe5b728ee17811",
        "name": "order_number",
        "span": {
            "content_part": "body",
            "message_index": 0,
            "utf16_byte_start": 58,
            "utf16_byte_end": 76,
            "char_start": 29,
            "char_end": 38
        },
        "name": "order_number",
        "kind": "order_number", # deprecated
        "formatted_value": "ABC-123456",
        "capture_ids": []
    }
]

API は、次の形式でエンティティを返します。

名前	型	説明
`id`	string	エンティティ ID。
`name`	string	エンティティ名。
`kind`	string	(非推奨)エンティティの種類。
`formatted_value`	string	エンティティ値。
`span`	Span	コメント内のエンティティの場所を格納するオブジェクト。
`capture_ids`	array<int>	エンティティが属するグループのキャプチャ ID 。

通貨の書式

各エンティティには span と formatted_valueがあります。スパンは、対応するコメント内のエンティティの境界を表します。 formatted_valueは通常、以下で説明する特定のインスタンスを除き、そのスパンでカバーされるテキストに対応します。

金額

Monetary Quantityエンティティは、さまざまな金額を抽出し、共通の書式設定を適用します。たとえば、"1M USD"、"USD 1000000"、"1,000,000 usd" はすべて 1,000,000.00 USDとして抽出されます。抽出された値は一貫した方法でフォーマットされるため、空白で分割することで通貨と金額を簡単に取得できます。

ただし、通貨があいまいな場合、抽出された値ではあいまいな通貨が保持されます。たとえば、「$1M」と「$1,000,000」は、米ドルだけでなくカナダドルまたはオーストラリアドルも指す可能性があるため、「$1M」と「$1,000,000」は1,000,000.00 USDではなく$1,000,000.00として抽出されます。

日付

Date エンティティは、コメントに表示される任意の日付を抽出し、標準の ISO 8601 形式を使用して正規化し、その後に UTC の時刻を正規化します。たとえば、2020 年 1 月 25 日に送信されたメールの「Jan 25 2020」、「25/01/2020」、「now」はすべて「2020-01-25 00:00 UTC」として抽出されます。

この書式設定は、キャンセル日、起算日、またはユーザーがトレーニングした任意の種類の日付など、日付に対応する型を持つすべてのエンティティに適用されます。

日付の一部が欠落している場合、コメントのタイムスタンプがアンカーとして使用されます。2020 年 5 月 1 日に送信されたメッセージの「毎月 5 日の午後 4 時」の日付は、「2020-05-05 16:00 UTC」として抽出されます。タイムゾーンが指定されていない場合、コメントのタイムゾーンが使用されますが、抽出された日付は常にUTCタイムゾーンで返されます。

Country (国)

国名は共通の値に正規化されます。たとえば、文字列 "UK" と "United Kingdom" はどちらも、"United Kingdom" という書式設定された値を持ちます。

ID のキャプチャ

コメントがリッチテキストとして処理され、テーブルが含まれ、そのテーブルでエンティティが一致した場合、そのエンティティの capture_ids プロパティにはキャプチャ ID が含まれます。テーブルの同じ行で一致したエンティティは同じキャプチャ ID を持つため、グループ化できます。

たとえば、 Order ID を Order Dateに関連付けることができます。複数の注文が参照されているコメントでは、キャプチャ ID でエンティティをグループ化することで、異なる注文の詳細を区別できます。

現在、テーブルで一致したエンティティは正確に 1 つのグループに属します。つまり、それらの capture_ids プロパティには ID が 1 つだけ含まれます。将来、API は複数の ID を返す可能性があります。

それ以外の場合、 capture_id プロパティは空のリストになります。

手記： CSV アップロードまたは API を使用してテキストを更新する際にエンティティが保持されるようになりました。

一般フィールドに関する FAQ

Q: Communications Mining プラットフォームから一般フィールドをダウンロードするにはどうすればよいですか?

A: 次のダウンロード方法は、一般的なフィールドを提供します: Communications Mining API および Communications Mining コマンドラインツール。データのダウンロードの概要を確認して、どの方法がユースケースに適しているかを理解してください。 CSV のダウンロードには全般フィールドは含まれませんのでご注意ください。

モデル

ステージングタグとライブタグ

連携を使いやすくするために、Communications Mining の UI でモデルバージョンを staging または live としてタグ付けできます。このタグは、モデルのバージョン番号の代わりに Predict API 要求に指定できます。これにより、統合では、ステージングタグまたはライブタグが指すモデルバージョンから予測を取得できます。プラットフォームユーザーは Communications Mining UI から簡単に管理できます。

モデルバージョンの詳細

特定のモデルバージョンの詳細は、検証 API エンドポイントを使用して取得できます。

さらに、予測要求への応答には、予測の作成に使用されたモデルに関する情報が含まれます。

"model": {
    "version": 2,
    "time": "2021-02-17T12:56:13.444000Z"
}"model": {
    "version": 2,
    "time": "2021-02-17T12:56:13.444000Z"
}

名前	型	説明
`time`	Timestamp	モデルのバージョンがピン留めされた日時。
`version`	Number	モデルのバージョン。

ラベル
ラベルに関する FAQ
オートメーションでラベルを使用する
分析でのラベルの使用
ラベルのプロパティ
一般フィールド
通貨の書式
ID のキャプチャ
一般フィールドに関する FAQ
モデル
ステージングタグとライブタグ
モデルバージョンの詳細

このページは役に立ちましたか?

前へコメント

次へテナント

サポートとサービス

サポートを受ける

UiPath アカデミー

RPA について学ぶ - オートメーションコース

UiPath コミュニティフォーラム