ixp
latest
false
- はじめに
- アクセス制御と管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining™
- 開発者
- 機械が単語を理解する方法:NLPに埋め込むためのガイド
- トランスフォーマーによるプロンプトベースの学習
- 効率的な変圧器II:知識蒸留と微調整
- 効率的な変圧器I:注意メカニズム
- 階層的な教師なしインテントモデリング:トレーニングデータなしで価値を得る
- Communications Mining™ でアノテーションの偏りを修正する
- アクティブ ラーニング: より優れた ML モデルを短時間で実現
- それはすべて数字にあります-メトリックを使用してモデルのパフォーマンスを評価します
- モデルの検証が重要な理由
- 対話データ分析 AI としての Communications Mining™ と Google AutoML を比較する
- ライセンス
- よくある質問など

Communications Mining ガイド
最終更新日時 2025年10月20日
注:
- CSV ファイルをソースにアップロードするには、Automation Cloud™ ユーザーとして IXP プロジェクト管理者 ロールを割り当てているか、レガシ ユーザーとして ソース管理者 権限と メッセージの編集 権限を割り当てている必要があります。
- .csvからデータをアップロードする方法について詳しくは、こちらをご覧ください。一般的なエラー メッセージとともに、「 CSV ファイルをソースにアップロードする」をご覧ください。
Communications Mining™ にデータをアップロードする前に、プラットフォームに取り込むデータを準備する際に考慮すべき要因がいくつかあります。
大事な: 必ず.csvをアップロードします。Excel ファイルではなく、ファイルとしてエクスポートします。
Excel で.csvを開いて変更を加えたことがある場合、書式の問題が発生してアップロード プロセスに影響する可能性があります。これを回避するには、.csv内で直接更新を行いますファイル。
また、.csvをアップロードする前に、次の表に示す項目を確認してくださいプラットフォームに。これにより、アップロード時のエラーや、モデルのパフォーマンスの品質に悪影響を及ぼすデータ品質の問題を回避できます。
| アイテム | 説明 |
| 行の重複 | 同じデータがデータ抽出全体で複数回繰り返し使用されている。 |
| ヘッダーの不一致 | 間違ったヘッダーが間違ったデータ フィールドに配置されている。 |
| 行または列のぶら下げ | 一部のデータが連続する行に含まれていない。たとえば、すべてのメッセージは行 1 から行 10,000 に含まれているにもかかわらず、行 19,999 に、データが入ったセルが含まれる行がある。 |
| 一貫性のない日付の書式 | 複数の行の日付の書式に一貫性がない。たとえば、米国の日付の書式のメッセージが多数あり、さらに EU の日付の書式のメッセージが多数ある場合に、これらがすべて同じデータセット内に存在していると、下流で正規化に問題が発生する。 |
| 一貫性のない文 | 構文的または意味的に明確な構造を持たない単語の寄せ集めが含まれる文。
例:
|
| 一貫性のないスペース | 単語間に不規則な数のスペースがある場合
例:
|
| 単語内での改行 | 単語の途中に改行がある場合
例:
|
| 誤った文字エンコード | テキスト データが正しくエンコードされていない場合、文字化けが起こったり、文字が判読不可能になったりする
例:
|
| 空のメッセージ | 件名または本文に内容が含まれていないコミュニケーション。 |
| スペル ミスの多いメッセージ | スペル ミスが多数含まれるテキスト データ。 |
| ヘッダー/フッター | ヘッダーまたはフッターが含まれている場合。たとえば、スパムの警告、ウイルス スキャンの警告などが含まれている。 |
| メタデータが、メタデータのプロパティとしてではなく件名/本文に含まれる | メタデータが件名または本文に含まれる場合。例:
|
| 1 つのメッセージに結合された複数のメッセージ | 別個のスレッドに分割されるべき複数のメッセージが、代わりに 1 つのコミュニケーションに結合された場合。 |