データセット
はじめに
コネクタとともに、いくつかのデータセットを提供する必要があります。これらのデータセットは変換の実行やコネクタの検証に使用されます。次のデータセットが必要です。
- サンプル データセット
- パフォーマンス データセット
サンプル データセット
コネクタの初回使用時に使用できるサンプル データセットを提供する必要があります。これは、コネクタの機能を示すとともに、コネクタのセットアップが正常に行われたかどうかを検証するためのサンプルとして機能します。さらに、検証プロセスにおける変換を検証するためにも使用されます。
一般的な要件
- データは
data.zip
という名前の単一の.zip
ファイルとして保存されている。 - .zip ファイルには、コネクタで使用されるソース システムのテーブルごとの個別の
.csv
ファイルが含まれている。 - 各ファイルの名前は
<tablename>.csv
である。 - 各ファイルにはヘッダー行がある。
- 区切り文字には
tab
が使用されている。 - フィールドでは引用は使用されていない。
品質の要件
- フィールドの名前は、ソース システムからエクスポートされる際のフィールドの名前と一致している必要がある。
- 利用可能なすべてのフィールドにデータが含まれている。
- すべてのエンティティとイベントがデータ内で発生している。
-
すべてのタグや期限日がデータ内で発生している。<
注: これは TemplateOne のコネクタにのみ適用されます。 - データセットの内容は現実的なプロセスを表している。
- 実際のデータが使用される場合、データは匿名化されており、それが UiPath によって使用されることに同意している。
- データセットは、変換に対して定義された、「テスト」に示される dbt テストに合格する必要があります。
サイズの要件
- データ サイズは 1MB 未満である。
最小データ サイズの制限はありません。たとえば、ケースが 5 つでもそれらが品質の要件を満たすことができるのであれば、それで十分です。
パフォーマンス データセット
Process Mining では、変換が適用されるデータの量が非常に多くなるケースが頻繁に発生します。コネクタの変換のパフォーマンスを検証できるようにするには、最大のテーブルのレコード数が以下の場合は、より大きなデータセットが必要です。
- 5,000 万件のレコードを含むデータセット。
- 5 億件のレコードを含むデータセット。
最大サイズのテーブルを生成すると予想される変換は、コネクタの種類によって異なります。
- ディスカバリー アクセラレータのコネクタの場合、データセットのレコードの数は、
Events_base
テーブルのイベントの数によって決定されます。 - TemplateOne のコネクタの場合、データセットのレコードの数は、
Event_log_base
テーブルのイベントの数によって決定されます。
パフォーマンス データセットは、サンプル データと同じ品質要件を満たす必要はありませんが、データセットは可能な限り実際のデータに似ている必要があります。(たとえば、データセットには複数のケースが含まれ、各ケースでは何らかのイベントが発生している必要があります)。さらに、次の要件を満たす必要があります。
- データセットは、「データセット」のサンプル データセットに記載されている一般要件のうち、名前以外は同じ要件を満たす必要があります。
-
データセットは、変換に対して定義された、「テスト」に示される dbt テストに合格する必要があります。
<repository_name>_<dataset_size>.zip
の命名規則に従って単一の .zip
ファイルとして保存する必要があります。