- リリース ノート
- はじめる前に
- 基本情報
- プロジェクト
- データセット
- ML パッケージ
- ML パッケージについて
- ML パッケージを構築する
- すぐに使えるパッケージ
- English Text Classification (英語テキスト分類)
- TPOT AutoML Classification (TPOT AutoML分類)
- UiPath Document Understanding
- ML パッケージのオフライン インストール
- パイプライン
- ML スキル
- ML ログ
- AI Center での Document Understanding
- 使い方
- 基本的なトラブルシューティング ガイド
TPOT AutoML Classification (TPOT AutoML分類)
[Open-Source Packages] > [Tabular Data] > [TPOTAutoMLClassification]
このモデルは、予測に使用する前に再トレーニングする必要がある、一般的な表形式データ (数値のみ) の分類モデルです。TPOT を使用して、最適なモデルを自動的に見つけます。
TPOT は、遺伝的プログラミングを使用してマシン ラーニングのパイプラインを最適化する、Python の自動マシン ラーニング ツールです。TPOT は、マシン ラーニングでの最も単調な処理を、考えられる何千ものパイプラインをインテリジェントに探索し、データに最も適したパイプラインを見つけることによって、自動化します。検索が終了すると (または、一定の時間が経過すると)、見つかった最適なパイプラインの Python コードが生成され、ユーザーはそこからパイプラインに変更を加えることができます。TPOT は scikit-learn に基づいて構築されているため、生成されるコードはすべて、scikit-learn ユーザーにとって見慣れたものとなります。
予測されたクラス、そのクラス予測に対して関連付けられた信頼度 (0~1)、およびラベル名を含む、JSON。ラベル名は、AI Center 内でパイプラインによってラベルのエンコードが実行された場合にのみ返されます。一部の scikit-learn (サイキット・ラーン) モデルでは、信頼度スコアをサポートしていません。最適化パイプラインの出力が、信頼度スコアをサポートしていない scikit-learn モデルの場合、出力には予測されたクラスのみが含まれます。
例:
{
"predictions": 0,
"confidences": 0.6,
"labels": "yes"
}
{
"predictions": 0,
"confidences": 0.6,
"labels": "yes"
}
ラベルのエンコードがモデルの外部で行われた場合は、次のようになります。
{
"predictions": 0,
"confidences": 0.6
}
{
"predictions": 0,
"confidences": 0.6
}
パイプライン
このパッケージでは、3 つの種類のパイプラインすべて (フル トレーニング、トレーニング、評価) がサポートされています。
モデルを初めてトレーニングする場合、提供されたデータセット全体を調べて、クラスが推測されます。
この ML パッケージはデータセットで (サブディレクトリではなく) CSV ファイルを探します。
CSV ファイルは、次の 2 つのルールに従う必要があります。
- データの最初の行に、ヘッダー/列名を含む必要があります。
- target_column 以外のすべての列は数値 (int、float) である必要があります。このモデルでは機能エンコードは実行できませんが、ターゲット エンコードは実行できます。モデルによってターゲット エンコードが実行される場合、モデルは予測時にターゲット変数のラベルも返します。
- max_time_mins: パイプラインを実行する時間 (分単位)。トレーニング時間が長いほど、TPOT が適切なモデルを見つけられる確率が高まります (既定値: 2)。
- target_column: ターゲット列の名前 (既定値: “target”)。
- scoring: TPOT では、パイプラインの評価に sklearn.model_selection.cross_val_score を使用します。そのため、スコアリング関数にも同じサポートを提供します (既定値: “accuracy”)。標準的な scikit-learn のスコアリング メトリック (https://scikit-learn.org/stable/modules/model_evaluation.html) を使用します。
- keep_training: 一般的な TPOT 実行には、(小さいデータセットでなければ) 終了するまでに数時間から数日かかりますが、途中でいつでも実行を中断して、それまでの最適な結果を確認できます。keep_training が True に設定されている場合、TPOT は中断した箇所からトレーニングを続行します。
target
) と異なる場合は、target_column 環境変数を手動で更新する必要があります。この操作を行うには、[新しいパイプライン実行を作成] ウィンドウで [パラメーターを入力] セクションの [+ 新規追加] ボタンをクリックします。[環境変数] フィールドに変数 (target_column) を追加し、[値] フィールドにファイルの列名を追加します。完了したら、アイコンをクリックします。
TPOT は、最適化されたパイプラインに関連する Python コードを、“TPOT_pipeline.py” という Python ファイルにエクスポートします。コードの実行が終了すると、“TPOT_pipeline.py” には最適化されたパイプラインの Python コードが含まれます。
Paper
このモデルは、次の 2 つの出版物に基づいています。
- 「Scaling tree-based automated machine learning to biomedical big data with a feature set selector (機能セット セレクタを使用してツリーベースの自動マシン ラーニングをバイオメディカル ビッグデータに拡張する)」Trang T. Le、Weixuan Fu および Jason H. Moore (2020)
- 「Evaluation of a Tree-based Pipeline Optimization Tool for Automating Data Science (データ サイエンスを自動化するためのツリーベースのパイプライン最適化ツールの評価)」Randal S. Olson、Nathan Bartley、Ryan J. Urbanowicz、および Jason H. Moore