Communications Mining
最新
バナーの背景画像
Communications Mining ガイド
最終更新日 2024年4月18日

CSV ファイルをソースにアップロードする

必要なユーザー権限: 「ソース管理者」および「メッセージの編集」

注: この記事では、CSV ファイルから既存のデータ ソースにデータをアップロードする方法について説明します。最初に GUI を使用してデータソースを作成する方法については、こちらをご覧ください。
主な手順
注: ソース内の既存のコメントを更新する場合、ユーザー プロパティ以外のコメントのプロパティ (例: メッセージ テキスト、送信日時のタイムスタンプ、「宛先」や「送信元」) を変更すると、関連付けられているデータセット内にあるエンティティのアノテーションが失われます。変更する前に、関連付けられているデータセットの最新のモデル バージョンをピン留めすることを強くお勧めします。

CSV ファイルからデータソースにデータをアップロードするには、[ソース] ページに移動し (管理コンソールから、ページの右上にある歯車アイコンを使用してアクセスします)、データのアップロード先のソースを見つけます。

データ ソース カードの右上隅にあるアップロード アイコンをクリックします (以下を参照)。

データ ソース カード

次に、[ファイルを選択] をクリックして、アップロードする CSV ファイルを選択します。

選択したファイルは、次の条件を満たす必要があります。

  • ファイルの最初の行にはヘッダーが含まれており、コンマまたはタブで区切られている必要があります。
  • 少なくとも次の 3 つの列が必要です: メッセージのテキスト コンテンツ (メッセージ)、タイムスタンプ、コメントを識別する一意の ID。
  • CSV ファイル内のすべてのテキスト フィールドは、二重引用符で囲まれている必要があります。
  • ファイルは、UTF-8、UTF-16、UTF-32 のいずれかでエンコードされている必要があります (どのエンコードかは自動的に検出されます)。
  • CSV ファイルは 64 MiB 以下である必要があります。ファイルがこれより大きい場合は、それぞれ 64 MiB 未満の複数のファイルに分割してアップロードできます。
CSV のアップロード ページ - 手順 1

ファイルが上記の条件を満たしている場合は、次の手順でメッセージを構成してアップロードできます。

[CSV をアップロード] ページ - 手順 2

CSV ファイル内で検出された列ヘッダーを含む各ドロップダウン リストから、必要な列を選択します。

  • ID 列:
    • メッセージを識別できる一意の ID を含む列である必要があります。
    • メッセージ ID に含められるのは、ASCII の英数字 (A から Z、a から z、0 から 9) と句読点 (/ を除く) のみです。
    • 注: ソース内に同じ ID の既存のメッセージが存在する場合、新しいファイルの内容に一致するように更新されます。
  • メッセージ列
    • プラットフォームで分析するメッセージ テキストを含む列です。
  • タイムスタンプ列
    • メッセージが記録された日時を含む列です。
    • タイムスタンプの形式は柔軟であり、プラットフォームによって自動的に推測されます。

件名、スレッド、または参加者を含むデータがある場合 (ケースやメールのスレッドで一般的)、CSV ファイル内の次の列を追加でアップロードすることもできます。

  • 件名列
    • メッセージの件名を含む列を選択します。
  • 送信者列
    • 送信者を含む列を選択します。
  • 宛先列
    • 受信者を含む列を選択します。受信者が複数いる場合は、セミコロンで区切る必要があります。
  • CC 列
    • CC の受信者を含む列を選択します。受信者が複数いる場合は、セミコロンで区切る必要があります。
  • スレッド ID 列
    • メッセージのスレッド ID を含む列を選択します。
    • スレッド ID は、異なるメッセージを同じスレッドに結び付けるものです。

送信者/宛先/CC の形式:

  • 送信者/宛先/cc フィールドに次の条件があると、エラーが発生します。
    • 受信者の最大数を超えている (スレッドあたり最大 2048 人の受信者)
    • 送信者または受信者が最大文字数の制限を超えている (受信者あたり最大 512 文字)
    • 1 行にセミコロンが 2 つ以上ある (たとえば、次の形式は正しくありません: john@email.com ; beth@email.com)
  • 受信者の前後の空白は削除されますが、他のデータ クレンジングは行われません。
    • 必要なデータの形式の例 (すべてが網羅されているわけではありません):
      • 例 1 - Robert Bog <rob.bog@gmail.com>;John Smith <john.smith@gmail.com>
      • Example 2 - rob.bog@gmail.com ;john.smith@gmail.com
      • 例 3 - rob.bog@gmail.com ; john.smith@gmail.com
  • 異なる受信者はセミコロン (;) で区切られます。
  • データをアップロードする前に、メールが適切な形式であることを確認してください。
  • スレッドの代表的なユース ケース (例: メール) では、各「送信者」セル内の送信者は 1 人だけにする必要があることに注意してください。

タイムスタンプの形式:

  • 選択したタイムスタンプ形式の日 / 月 / 年の順序が曖昧な場合 (例: 01/02/03 10:10)、正しい解釈を提案できます。
    • 2003 年 1 月 2 日 - 指定なし
    • 2003 年 2 月 1 日 - 日が最初
    • 2001 年 2 月 3 日 - 年が最初
    • 2001 年 3 月 2 日 - 日が最初 + 年が最初
  • 曖昧さを避けるため、可能な限り RFC 3339 形式のタイムスタンプを使用することをお勧めします (例: UTC では 2020-01-31T12:34:56Z、タイムゾーンつきでは 2020-08-31T11:20:60-08:00)。

次に、コメントとともにアップロードする追加のユーザー プロパティを選択します。ユーザー プロパティは、プラットフォームでフィルター処理可能な、各メッセージに関連付けられたコンテキストのメタデータです。ユーザー プロパティはプラットフォームのマシン ラーニング モデルでも使用される可能性があります。文字列と数値の 2 種類があります。

  • 文字列のユーザー プロパティはカテゴリのメタデータです (一般的な例として、ID、国、取引先などがあります)。
  • 数値のユーザー プロパティは数値のメタデータです (一般的な例として、NPS、メール統計情報、金額などがあります)。
注:

ファイルにユーザー プロパティとして NPS スコアが含まれる場合、ネイティブの NPS グラフをプラットフォームに読み込むには、数値プロパティとして含め、名前を「NPS」のみにする必要があります。

ユーザー プロパティをすべて選択したら、[アップロード] をクリックします。

続いて、データのアップロード先のソースを含むデータセット内で、アップロードされたメッセージを精査するように求められます。ソースがまだどのデータセットにも関連付けられていない場合は、新しいデータセットを作成して、期待どおりにアップロードされていることを確認できます。

注:

ユーザー プロパティを選択する際に間違いがあった場合は、同じファイルを再アップロードできます。その場合、列 ID を識別子として使用し、既存のメッセージとプロパティが上書きされます (既存のメッセージに適用されているラベルに影響はありません)。

トラブルシューティング

アップロードがスムーズに実行されれば問題ありませんが、アップロード プロセスで問題が発生してエラー メッセージが表示されることがあります。問題の解決や回避に役立つよう、以下に一部のエラー メッセージとその発生理由の概要を説明します。

以下のエラー メッセージでは、{something} は、エラーが発生した場所に関するコンテキスト情報にマップされます。さらに、ファイル内の位置を参照する方法は、次のように標準化されています。

文字列展開後の状態:
{position}行 {line-number} の列 {column-number} のレコード {row-number} (バイト {byte-number})
次に示すように、エラー メッセージのタイトルが説明とともに表示されます。


以下に、CSV ファイルをアップロードするときに発生する可能性のあるエラー メッセージを示します。

エラーの種類エラー メッセージ説明
十分な列がないThe CSV file only contains {number-columns} column(s), but at least 3 are needed (text, timestamp and id)アップロードされた CSV に 3 つ以上の列が含まれていないか、ファイルのエンコードが間違って検出されました。
無効なエンコードThe file contains invalid characters (encoding detected as {detected-encoding})ファイルが UTF-8 / UTF-16 / UTF-32 として正しくエンコードされていません (ファイルの形式は自動的に検出されます)。
無効なヘッダーstring:ti:er' does not match'(^delimiter|id|message|timestamp |timestamp_default_utc_offset |timestamp_day_first|timestamp_year_first\\Z)|(^(?P<property_type>number|string):(?P<name>\\w(?:[\\w]{0,30}\\w)?)\\Z)'列ヘッダーがユーザー プロパティとして無効な名前である場合、リクエストのスキーマが無効であるときの既定のメッセージが返されます。各列ヘッダーが、その目的に対して有効な形式であることを確認します。列ヘッダーの最大長は英数字 32 文字です。
行の長さが等しくないThe CSV contains unequal row lengths. Message {position} has {number} fields, but the previous record has {number} fields.CSV に、セルの数が異なる行、またはヘッダーの数と一致しない行が含まれています。
ID の形式Invalid message id for {record}. Ids can only consist of ASCII alphanumeric characters and punctuation (except '/'). Cell value: {cell-value} エラー メッセージの説明のとおり、このエラーは、ID フィールドが無効な文字で構成されている場合に発生します。
ID の長さId is too long for message {record}. It has {number} bytes, expected at most 1024このエラーは、ID フィールドが許容される最大長 (1024 文字) よりも長い場合に発生します。
タイムスタンプの形式Incorrectly formatted timestamp in message {position}: {timestamp-error-message}. Cell value: {cell-value}このエラーは、タイムスタンプ フィールドを解析できなかった場合に発生します。
メッセージの長さMessage is too long for message {position}. It has {number} bytes, expected at most 65536このエラーは、メッセージ フィールドが最大長 (65536 文字) よりも長い場合に発生します。
数値プロパティの形式Incorrectly formatted number in message {position}: {number-error-message}. Cell value: {cell-value}このエラーは、数値のユーザー プロパティ フィールドを解析できなかった場合に発生します。妥当に数値としてデコードできる任意の形式をプラットフォームで許容する必要があります。
プロパティの長さProperty is too long for message {position}. It has {number} bytes, expected at most 4096このエラーは、ユーザー プロパティ フィールドが最大長 (4096 文字) よりも長い場合に発生します。
不明なエラーUnknown CSV error: {underlying-error-message}上記のリストはすべてを網羅しているわけではありません。不明なエラーが発生した場合は、アップロードをリトライしてください。

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.