AI Center ガイド

デリバリー:

最終更新日時 2024年10月17日

TPOT AutoML Classification (TPOT AutoML分類)

[Open-Source Packages] > [Tabular Data] > [TPOTAutoMLClassification]

このモデルは、予測に使用する前に再トレーニングする必要がある、一般的な表形式データ (数値のみ) の分類モデルです。TPOT を使用して、最適なモデルを自動的に見つけます。

TPOT は、遺伝的プログラミングを使用してマシンラーニングのパイプラインを最適化する、Python の自動マシンラーニングツールです。TPOT は、マシンラーニングでの最も単調な処理を、考えられる何千ものパイプラインをインテリジェントに探索し、データに最も適したパイプラインを見つけることによって、自動化します。検索が終了すると (または、一定の時間が経過すると)、見つかった最適なパイプラインの Python コードが生成され、ユーザーはそこからパイプラインに変更を加えることができます。TPOT は scikit-learn に基づいて構築されているため、生成されるコードはすべて、scikit-learn ユーザーにとって見慣れたものとなります。

入力の種類

JSON

入力の説明

モデルが予測に使用するフィーチャー。例: { "Feature1": 12, "Feature2": 222, ..., "FeatureN": 110}

出力の説明

予測されたクラス、そのクラス予測に対して関連付けられた信頼度 (0～1)、およびラベル名を含む、JSON。ラベル名は、AI Center 内でパイプラインによってラベルのエンコードが実行された場合にのみ返されます。一部の scikit-learn (サイキット・ラーン) モデルでは、信頼度スコアをサポートしていません。最適化パイプラインの出力が、信頼度スコアをサポートしていない scikit-learn モデルの場合、出力には予測されたクラスのみが含まれます。

例：

{
  "predictions": 0,
  "confidences": 0.6,
  "labels": "yes"
}{
  "predictions": 0,
  "confidences": 0.6,
  "labels": "yes"
}

ラベルのエンコードがモデルの外部で行われた場合は、次のようになります。

{
  "predictions": 0,
  "confidences": 0.6
}{
  "predictions": 0,
  "confidences": 0.6
}

パイプライン

このパッケージでは、3 つの種類のパイプラインすべて (フルトレーニング、トレーニング、評価) がサポートされています。

モデルを初めてトレーニングする場合、提供されたデータセット全体を調べて、クラスが推測されます。

データセットの形式

この ML パッケージはデータセットで (サブディレクトリではなく) CSV ファイルを探します。

CSV ファイルは、次の 2 つのルールに従う必要があります。

データの最初の行に、ヘッダー/列名を含む必要があります。
target_column 以外のすべての列は数値 (int、float) である必要があります。このモデルでは機能エンコードは実行できませんが、ターゲットエンコードは実行できます。モデルによってターゲットエンコードが実行される場合、モデルは予測時にターゲット変数のラベルも返します。

環境変数

max_time_mins: パイプラインを実行する時間 (分単位)。トレーニング時間が長いほど、TPOT が適切なモデルを見つけられる確率が高まります (既定値: 2)。
target_column: ターゲット列の名前 (既定値: “target”)。
scoring: TPOT では、パイプラインの評価に sklearn.model_selection.cross_val_score を使用します。そのため、スコアリング関数にも同じサポートを提供します (既定値: “accuracy”)。標準的な scikit-learn のスコアリングメトリック (https://scikit-learn.org/stable/modules/model_evaluation.html) を使用します。
keep_training: 一般的な TPOT 実行には、(小さいデータセットでなければ) 終了するまでに数時間から数日かかりますが、途中でいつでも実行を中断して、それまでの最適な結果を確認できます。keep_training が True に設定されている場合、TPOT は中断した箇所からトレーニングを続行します。

注: ファイルのターゲット列が既定値 (target) と異なる場合は、target_column 環境変数を手動で更新する必要があります。この操作を行うには、[新しいパイプライン実行を作成] ウィンドウで [パラメーターを入力] セクションの [+ 新規追加] ボタンをクリックします。[環境変数] フィールドに変数 (target_column) を追加し、[値] フィールドにファイルの列名を追加します。完了したら、アイコンをクリックします。