ai-center
2020.10
false
- リリース ノート
- 要件
- インストール
- 基本情報
- プロジェクト
- データセット
- ML パッケージ
- パイプライン
- ML スキル
- ML ログ
- AI Fabric での Document Understanding
- 基本的なトラブルシューティング ガイド
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
AI Center
Last updated 2024年6月6日
トレーニング パイプライン
トレーニング パイプラインは、新しいマシン ラーニング モデルをトレーニングするために使用します。このパイプラインを使用するには、モデルをトレーニングするためのコード (train.py ファイルの
train()
関数) と新しくトレーニングしたモデルを保持しておくためのコード (train.py ファイルの save()
関数) がパッケージに含まれている必要があります。これらと、データセットまたはデータセット内のサブフォルダーによって、新しいパッケージ バージョンが生成されます。
こちらで説明しているように、新しいトレーニング パイプラインを作成します。以下のトレーニング パイプライン固有の情報を忘れずに指定してください。
- [パイプラインの種類] フィールドで [トレーニングの実行] を選択します。
- [入力データセットを選択] フィールドで、トレーニング用データのインポート元のデータセットまたはフォルダーを選択します。このデータセット/フォルダーのすべてのファイルは、パイプラインの実行中にローカルで使用できる必要があり、
train()
関数の最初の引数に渡されます (つまり、マウントされたデータへのパスが、定義 train(self, data_directory) の data_directory 変数に渡されます)。 - [パラメーターを入力] セクションに、パイプラインで定義され、使用される環境変数を入力します (存在する場合)。既定で設定されている環境変数は、次のとおりです。
artifacts_directory
。既定値は artifacts。このパイプラインに関連する補助データとして保持されるディレクトリへのパスを定義します。すべてとは言わずとも、ほとんどのユーザーは、UI を使用してこれを上書きする必要はありません。パイプラインの実行中は、画像、pdf、サブフォルダーなど、あらゆるものを保存できます。具体的には、コードがパスos.environ['artifacts_directory']
で指定されたディレクトリに書き込むデータは、パイプライン実行の最後にアップロードされて、[パイプラインの詳細] ページに表示されます。save_training_data
。既定値は false です。true に設定した場合、Choose input dataset
で選択されたフォルダーがパイプライン実行の最後に、パイプラインの出力としてdata_directory
ディレクトリにアップロードされます。以下のビデオで、トレーニング パイプラインの作成方法を確認してください。
注: パイプラインの実行には時間がかかることがあります。しばらくしてからステータスを確認してください。
パイプラインの実行後、パッケージの新しいマイナー バージョンが利用可能になり、[ML パッケージ] > [パッケージ名] ページに表示されます。この例では、このパッケージ バージョンは 1.1 です。
[パイプライン] ページの、パイプラインのステータスが [成功] に変わります。[パイプラインの詳細] ページには、パイプラインの実行に関連する任意のファイルとフォルダーが表示されます。この例では、パイプラインの実行によって
my-training-artifact.txt
というファイルが作成されます。
ここでは、いくつかのパッケージ (たとえば、バージョン 1.0) での類似の概念に基づいたトレーニング パイプラインの実行について説明します。
重要: これは簡略化された例であり、データセットとパッケージがトレーニング パイプラインでどのように対話するかを示しています。これらの手順は概念を示しているに過ぎず、プラットフォームがどのように動作するかを表しているわけではありません。
_results.json
ファイルには、パイプライン実行の概要が記載されており、トレーニング パイプラインのすべての入力/出力と実行時間が公開されています。
{
"parameters": {
"pipeline": "< Pipeline_name >",
"inputs": {
"package": "<Package_name>",
"version": "<version_number>",
"train_data": "<storage_directory>",
"gpu": "True/False"
},
"env": {
"key": "value",
...
}
},
"run_summary": {
"execution_time": <time>, #in seconds
"start_at": <timestamp>, #in seconds
"end_at": <timestamp>, #in seconds
"outputs": {
"train_data": "<test_storage_directory>",
"artifacts_data": "<artifacts_storage_directory>",
"package": "<Package_name>",
"version": "<new_version>"
}
}
}
{
"parameters": {
"pipeline": "< Pipeline_name >",
"inputs": {
"package": "<Package_name>",
"version": "<version_number>",
"train_data": "<storage_directory>",
"gpu": "True/False"
},
"env": {
"key": "value",
...
}
},
"run_summary": {
"execution_time": <time>, #in seconds
"start_at": <timestamp>, #in seconds
"end_at": <timestamp>, #in seconds
"outputs": {
"train_data": "<test_storage_directory>",
"artifacts_data": "<artifacts_storage_directory>",
"package": "<Package_name>",
"version": "<new_version>"
}
}
}
ML パッケージの zip ファイルは、トレーニング パイプラインで自動的に生成される新しいバージョンのパッケージです。
成果物フォルダーはパイプラインで生成されたすべての成果物を再グループ化するフォルダーで、
artifacts_directory
フォルダーに保存され、空でない場合にのみ表示されます。
データセット フォルダーは入力データセット フォルダーのコピーであり、
save_data
の値が既定の true に設定されている場合にのみ存在します。
マシン ラーニングのガバナンスに取り組む態勢が整っている企業は非常に少数です。モデルのトレーニングに使用されたデータのスナップショットをモデルごとに作成できるようにするために、企業では AI Fabric を使用してデータを追跡することができます。
実際には、パラメーター
save_training_data
= true
を渡せば入力データのスナップショットを作成できます。このパラメーターは、入力として渡されたデータのスナップショットを作成します。その後、ユーザーはいつでも関連する [パイプラインの詳細] ページに移動して、トレーニング時にどのデータが使用されたかを正確に把握できます。