- 基本情報
- 管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視を使用する
- オートメーションと Communications Mining
- ライセンス情報
- よくある質問など
CSV ファイルをソースにアップロードする
必要なユーザー権限: 「ソース管理者」および「メッセージの編集」
CSV ファイルからデータソースにデータをアップロードするには、[ソース] ページに移動し (管理コンソールから、ページの右上にある歯車アイコンを使用してアクセスします)、データのアップロード先のソースを見つけます。
データ ソース カードの右上隅にあるアップロード アイコンをクリックします (以下を参照)。
次に、[ファイルを選択] をクリックして、アップロードする CSV ファイルを選択します。
選択したファイルは、次の条件を満たす必要があります。
- ファイルの最初の行にはヘッダーが含まれており、コンマまたはタブで区切られている必要があります。
- 少なくとも次の 3 つの列が必要です: メッセージのテキスト コンテンツ (メッセージ)、タイムスタンプ、コメントを識別する一意の ID。
- CSV ファイル内のすべてのテキスト フィールドは、二重引用符で囲まれている必要があります。
- ファイルは、UTF-8、UTF-16、UTF-32 のいずれかでエンコードされている必要があります (どのエンコードかは自動的に検出されます)。
- CSV ファイルは 64 MiB 以下である必要があります。ファイルがこれより大きい場合は、それぞれ 64 MiB 未満の複数のファイルに分割してアップロードできます。
ファイルが上記の条件を満たしている場合は、次の手順でメッセージを構成してアップロードできます。
CSV ファイル内で検出された列ヘッダーを含む各ドロップダウン リストから、必要な列を選択します。
- ID 列:
- メッセージを識別できる一意の ID を含む列である必要があります。
- メッセージ ID に含められるのは、ASCII の英数字 (A から Z、a から z、0 から 9) と句読点 (/ を除く) のみです。
-
注: ソース内に同じ ID の既存のメッセージが存在する場合、新しいファイルの内容に一致するように更新されます。
- メッセージ列
- プラットフォームで分析するメッセージ テキストを含む列です。
- タイムスタンプ列
- メッセージが記録された日時を含む列です。
- タイムスタンプの形式は柔軟であり、プラットフォームによって自動的に推測されます。
件名、スレッド、または参加者を含むデータがある場合 (ケースやメールのスレッドで一般的)、CSV ファイル内の次の列を追加でアップロードすることもできます。
- 件名列
- メッセージの件名を含む列を選択します。
- 送信者列
- 送信者を含む列を選択します。
- 宛先列
- 受信者を含む列を選択します。受信者が複数いる場合は、セミコロンで区切る必要があります。
- CC 列
- CC の受信者を含む列を選択します。受信者が複数いる場合は、セミコロンで区切る必要があります。
- スレッド ID 列
- メッセージのスレッド ID を含む列を選択します。
- スレッド ID は、異なるメッセージを同じスレッドに結び付けるものです。
送信者/宛先/CC の形式:
- 送信者/宛先/cc フィールドに次の条件があると、エラーが発生します。
- 受信者の最大数を超えている (スレッドあたり最大 2048 人の受信者)
- 送信者または受信者が最大文字数の制限を超えている (受信者あたり最大 512 文字)
- 1 行にセミコロンが 2 つ以上ある (たとえば、次の形式は正しくありません: john@email.com ; beth@email.com)
- 受信者の前後の空白は削除されますが、他のデータ クレンジングは行われません。
- 必要なデータの形式の例 (すべてが網羅されているわけではありません):
- 例 1 - Robert Bog <rob.bog@gmail.com>;John Smith <john.smith@gmail.com>
- Example 2 - rob.bog@gmail.com ;john.smith@gmail.com
- 例 3 - rob.bog@gmail.com ; john.smith@gmail.com
- 必要なデータの形式の例 (すべてが網羅されているわけではありません):
- 異なる受信者はセミコロン (;) で区切られます。
- データをアップロードする前に、メールが適切な形式であることを確認してください。
- スレッドの代表的なユース ケース (例: メール) では、各「送信者」セル内の送信者は 1 人だけにする必要があることに注意してください。
タイムスタンプの形式:
- 選択したタイムスタンプ形式の日 / 月 / 年の順序が曖昧な場合 (例: 01/02/03 10:10)、正しい解釈を提案できます。
- 2003 年 1 月 2 日 - 指定なし
- 2003 年 2 月 1 日 - 日が最初
- 2001 年 2 月 3 日 - 年が最初
- 2001 年 3 月 2 日 - 日が最初 + 年が最初
- 曖昧さを避けるため、可能な限り RFC 3339 形式のタイムスタンプを使用することをお勧めします (例: UTC では 2020-01-31T12:34:56Z、タイムゾーンつきでは 2020-08-31T11:20:60-08:00)。
次に、コメントとともにアップロードする追加のユーザー プロパティを選択します。ユーザー プロパティは、プラットフォームでフィルター処理可能な、各メッセージに関連付けられたコンテキストのメタデータです。ユーザー プロパティはプラットフォームのマシン ラーニング モデルでも使用される可能性があります。文字列と数値の 2 種類があります。
- 文字列のユーザー プロパティはカテゴリのメタデータです (一般的な例として、ID、国、取引先などがあります)。
- 数値のユーザー プロパティは数値のメタデータです (一般的な例として、NPS、メール統計情報、金額などがあります)。
ファイルにユーザー プロパティとして NPS スコアが含まれる場合、ネイティブの NPS グラフをプラットフォームに読み込むには、数値プロパティとして含め、名前を「NPS」のみにする必要があります。
ユーザー プロパティをすべて選択したら、[アップロード] をクリックします。
続いて、データのアップロード先のソースを含むデータセット内で、アップロードされたメッセージを精査するように求められます。ソースがまだどのデータセットにも関連付けられていない場合は、新しいデータセットを作成して、期待どおりにアップロードされていることを確認できます。
ユーザー プロパティを選択する際に間違いがあった場合は、同じファイルを再アップロードできます。その場合、列 ID を識別子として使用し、既存のメッセージとプロパティが上書きされます (既存のメッセージに適用されているラベルに影響はありません)。
トラブルシューティング
アップロードがスムーズに実行されれば問題ありませんが、アップロード プロセスで問題が発生してエラー メッセージが表示されることがあります。問題の解決や回避に役立つよう、以下に一部のエラー メッセージとその発生理由の概要を説明します。
以下のエラー メッセージでは、{something} は、エラーが発生した場所に関するコンテキスト情報にマップされます。さらに、ファイル内の位置を参照する方法は、次のように標準化されています。
文字列 | 展開後の状態: |
---|---|
{position} | 行 {line-number} の列 {column-number} のレコード {row-number} (バイト {byte-number}) |
以下に、CSV ファイルをアップロードするときに発生する可能性のあるエラー メッセージを示します。
エラーの種類 | エラー メッセージ | 説明 |
---|---|---|
十分な列がない | The CSV file only contains {number-columns} column(s), but at least 3 are needed (text, timestamp and id) | アップロードされた CSV に 3 つ以上の列が含まれていないか、ファイルのエンコードが間違って検出されました。 |
無効なエンコード | The file contains invalid characters (encoding detected as {detected-encoding}) | ファイルが UTF-8 / UTF-16 / UTF-32 として正しくエンコードされていません (ファイルの形式は自動的に検出されます)。 |
無効なヘッダー | string:ti:er' does not match'(^delimiter|id|message|timestamp |timestamp_default_utc_offset |timestamp_day_first|timestamp_year_first\\Z)|(^(?P<property_type>number|string):(?P<name>\\w(?:[\\w]{0,30}\\w)?)\\Z)' | 列ヘッダーがユーザー プロパティとして無効な名前である場合、リクエストのスキーマが無効であるときの既定のメッセージが返されます。各列ヘッダーが、その目的に対して有効な形式であることを確認します。列ヘッダーの最大長は英数字 32 文字です。 |
行の長さが等しくない | The CSV contains unequal row lengths. Message {position} has {number} fields, but the previous record has {number} fields. | CSV に、セルの数が異なる行、またはヘッダーの数と一致しない行が含まれています。 |
ID の形式 | Invalid message id for {record}. Ids can only consist of ASCII alphanumeric characters and punctuation (except '/'). Cell value: {cell-value} | エラー メッセージの説明のとおり、このエラーは、ID フィールドが無効な文字で構成されている場合に発生します。 |
ID の長さ | Id is too long for message {record}. It has {number} bytes, expected at most 1024 | このエラーは、ID フィールドが許容される最大長 (1024 文字) よりも長い場合に発生します。 |
タイムスタンプの形式 | Incorrectly formatted timestamp in message {position}: {timestamp-error-message}. Cell value: {cell-value} | このエラーは、タイムスタンプ フィールドを解析できなかった場合に発生します。 |
メッセージの長さ | Message is too long for message {position}. It has {number} bytes, expected at most 65536 | このエラーは、メッセージ フィールドが最大長 (65536 文字) よりも長い場合に発生します。 |
数値プロパティの形式 | Incorrectly formatted number in message {position}: {number-error-message}. Cell value: {cell-value} | このエラーは、数値のユーザー プロパティ フィールドを解析できなかった場合に発生します。妥当に数値としてデコードできる任意の形式をプラットフォームで許容する必要があります。 |
プロパティの長さ | Property is too long for message {position}. It has {number} bytes, expected at most 4096 | このエラーは、ユーザー プロパティ フィールドが最大長 (4096 文字) よりも長い場合に発生します。 |
不明なエラー | Unknown CSV error: {underlying-error-message} | 上記のリストはすべてを網羅しているわけではありません。不明なエラーが発生した場合は、アップロードをリトライしてください。 |