AI Center

デリバリー:

最終更新日時 2025年9月1日

TPOT XGBoost Regression (TPOT XGBoost 回帰)

[Open-Source Packages] > [Tabular Data] > [TPOTXGBoostRegression]

このモデルは、予測に使用する前に再トレーニングする必要がある、一般的な表形式データ (数値のみ) の回帰モデルです。TPOT を使用して、最適なモデルを自動的に見つけます。

TPOT は、遺伝的プログラミングを使用してマシンラーニングのパイプラインを最適化する、Python の自動マシンラーニングツールです。TPOT は、マシンラーニングでの最も単調な処理を、考えられる何千ものパイプラインをインテリジェントに探索し、データに最も適したパイプラインを見つけることによって、自動化します。検索が終了すると (または、一定の時間が経過すると)、見つかった最適なパイプラインの Python コードが生成され、ユーザーはそこからパイプラインに変更を加えることができます。TPOT は scikit-learn に基づいて構築されているため、生成されるコードはすべて、scikit-learn ユーザーにとって見慣れたものとなります。

このバージョンの TPOT は、XGBoost と標準的なi一連の前処理方法のみを使用してマシンラーニングパイプラインを最適化します。

モデルの詳細

入力の種類

JSON

入力の説明

モデルが予測に使用するフィーチャー。例: { "Feature1": 12, "Feature2": 222, ..., "FeatureN": 110}

出力の説明

予測のリストを含む JSON

例：

{ "predictions" : "[12, 12, 2, 354, 12, 2] }{ "predictions" : "[12, 12, 2, 354, 12, 2] }

パイプライン

このパッケージでは、3 つの種類のパイプラインすべて (フルトレーニング、トレーニング、評価) がサポートされています。

データセットの形式

この ML パッケージはデータセットで (サブディレクトリではなく) CSV ファイルを探します。

CSV ファイルは、次の 2 つのルールに従う必要があります。

データの最初の行に、ヘッダー/列名を含む必要があります。
すべての列は数値 (int、float) である必要があります。このモデルでは機能エンコードは実行できませんが、ターゲットエンコードは実行できます。モデルによってターゲットエンコードが実行される場合、予測時にモデルはターゲット変数のラベルも返します。

環境変数

max_time_mins: パイプラインを実行する時間 (分単位)。トレーニング時間が長いほど、TPOT が適切なモデルを見つけられる確率が高まります (既定値: 2)。
target_column: ターゲット列の名前 (既定値: “target”)。
scoring: TPOT では sklearn.model_selection.cross_val_score が使用されますパイプラインの評価用であるため、スコアリング関数にも同じサポートを提供します (既定値: "accuracy")。標準的な scikit-learn のスコアリングメトリックを使用します
keep_training: 一般的な TPOT 実行には、(小さいデータセットでなければ) 終了するまでに数時間から数日かかりますが、途中でいつでも実行を中断して、それまでの最適な結果を確認できます。keep_training が True に設定されている場合、TPOT は中断した箇所からトレーニングを続行します。

手記：ファイルのターゲット列が既定値 (target) と異なる場合は、 target_column 環境変数を手動で更新する必要があります。この操作を行うには、[ 新しいパイプライン実行を作成] ウィンドウで [ パラメーターを入力] セクションの[+ 新規追加] ボタンを選択します。[環境変数] フィールドに変数 (target_column) を追加し、[値] フィールドにファイルの列名を追加します。