- 基本情報
- 管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining
- ライセンス情報
- よくある質問など
Communications Mining ガイド
.CSV をアップロードするためにデータを準備する
必要なユーザー権限: 「ソース管理者」および「メッセージの編集」
.csv からデータをアップロードする手順については、プラットフォームで発生する可能性のある一般的なエラー メッセージと併せて、こちらをご確認ください。
Communications Mining にデータをアップロードする前に、プラットフォームに取り込むデータを準備する際に考慮すべき要因がいくつかあります。
必ず、Excel ファイルではなく、.csv ファイルをアップロードしていることを確認してください。
.csv を Excel で開いて変更を加えたことがある場合、書式の問題が発生し、アップロード時に問題が発生する可能性があります。これを避けるため、更新は直接 .csv で行ってください。
また、ファイルをアップロードする前に以下を確認し、アップロード時にエラーが発生したり、モデルのパフォーマンスの品質に悪影響を及ぼすデータ品質の問題が発生したりしないようにしてください。
アイテム | 説明 |
行の重複 | 同じデータがデータ抽出全体で複数回繰り返し使用されている |
ヘッダーの不一致 | 間違ったヘッダーが間違ったデータ フィールドに配置されている |
行または列のぶら下げ | 一部のデータが連続する行に含まれていない
例: すべてのメッセージは行 1 から行 10,000 に含まれているにもかかわらず、行 19,999 に、データが入ったセルが含まれる行がある |
一貫性のない日付の書式 | 複数の行の日付の書式に一貫性がない
例: 米国の日付の書式のメッセージが多数あり、さらに EU の日付の書式のメッセージが多数ある場合に、これらがすべて同じデータセット内に存在していると、下流で正規化に問題が発生する |
一貫性のない文 | 構文的または意味的に明確な構造を持たない単語の寄せ集めが含まれる文
例: 「ユーザーは新しいポータブル 28442 298 チケットの creaportableted をリクエストしています」 |
一貫性のないスペース | 単語間に不規則な数のスペースがある場合
例:「The policy is set to renew」ではなく「」 |
単語内での改行 | 単語の途中に改行があってはならないのに、改行がある場合
例: 「The policy is set to renew」ではなく、「The po licy is set. to renew」 |
誤った文字エンコード | テキスト データが正しくエンコードされていない場合、文字化けが起こったり、文字が判読不可能になったりする
例: 「The app is great」ではなく「ThÇ åpp is gré¶t」 |
空のメッセージ | 件名/本文に内容が含まれていないコミュニケーション |
スペル ミスの多いメッセージ | スペル ミスが多数含まれるテキスト データ |
ヘッダー/フッター | ヘッダーまたはフッターが含まれている場合
例: スパムの警告、ウイルス スキャンの警告など |
メタデータが、メタデータのプロパティとしてではなく件名/本文に含まれる | メタデータが件名または本文に含まれる場合
例: 「保険契約を更新したい」がメッセージとして含まれていて、01/01/2023 が日付としてメタデータに含まれているのではなく、「[01/01/2023] 保険契約を更新したい」がメッセージの本文に含まれている |
1 つのメッセージに結合された複数のメッセージ | 1 つのスレッド内の別個のメッセージに分割されるべき複数のメッセージが、1 つのコミュニケーションに結合されている場合 |