ai-center
2024.10
true
UiPath logo, featuring letters U and I in white
AI Center ガイド
Automation CloudAutomation SuiteStandalone
Last updated 2024年11月11日

TPOT AutoML Classification (TPOT AutoML分類)

[Open-Source Packages] > [Tabular Data] > [TPOTAutoMLClassification]

このモデルは、予測に使用する前に再トレーニングする必要がある、一般的な表形式データ (数値のみ) の分類モデルです。TPOT を使用して、最適なモデルを自動的に見つけます。

TPOT は、遺伝的プログラミングを使用してマシン ラーニングのパイプラインを最適化する、Python の自動マシン ラーニング ツールです。TPOT は、マシン ラーニングでの最も単調な処理を、考えられる何千ものパイプラインをインテリジェントに探索し、データに最も適したパイプラインを見つけることによって、自動化します。検索が終了すると (または、一定の時間が経過すると)、見つかった最適なパイプラインの Python コードが生成され、ユーザーはそこからパイプラインに変更を加えることができます。TPOT は scikit-learn に基づいて構築されているため、生成されるコードはすべて、scikit-learn ユーザーにとって見慣れたものとなります。

モデルの詳細

入力の種類

JSON

入力の説明

モデルが予測に使用するフィーチャー。例: { "Feature1": 12, "Feature2": 222, ..., "FeatureN": 110}

出力の説明

予測されたクラス、そのクラス予測に対して関連付けられた信頼度 (0 から 1 の間)、およびラベル名を含む、JSON。 ラベル名は、 AI Center 内でパイプラインによってラベルのエンコードが実行された場合にのみ返されます。 一部の scikit-learn (サイキット・ラーン) モデルは信頼度スコアをサポートしていません。 最適化パイプラインの出力が、信頼度スコアをサポートしていない scikit-learn モデルの場合、出力には予測されたクラスのみが含まれます。

例:

{
  "predictions": 0,
  "confidences": 0.6,
  "labels": "yes"
}{
  "predictions": 0,
  "confidences": 0.6,
  "labels": "yes"
}

ラベルのエンコードがモデルの外部で行われた場合は、次のようになります。

{
  "predictions": 0,
  "confidences": 0.6
}{
  "predictions": 0,
  "confidences": 0.6
}

パイプライン

このパッケージでは、3 つの種類のパイプラインすべて (フル トレーニング、トレーニング、評価) がサポートされています。

モデルを初めてトレーニングする場合、提供されたデータセット全体を調べて、クラスが推測されます。

データセットの形式

この ML パッケージはデータセットで (サブディレクトリではなく) CSV ファイルを探します。

CSV ファイルは、次の 2 つのルールに従う必要があります。

  • データの最初の行に、ヘッダー/列名を含む必要があります。
  • target_column 以外のすべての列は数値 (int、float) である必要があります。このモデルでは機能エンコードは実行できませんが、ターゲット エンコードは実行できます。モデルによってターゲット エンコードが実行される場合、モデルは予測時にターゲット変数のラベルも返します。

環境変数

  • max_time_mins: パイプラインを実行する時間 (分単位)。トレーニング時間が長いほど、TPOT が適切なモデルを見つけられる確率が高まります (既定値: 2)。
  • target_column: ターゲット列の名前 (既定値: “target”)。
  • scoring: TPOT では、パイプラインの評価に sklearn.model_selection.cross_val_score を使用します。そのため、スコアリング関数にも同じサポートを提供します (既定値: “accuracy”)。標準的な scikit-learn のスコアリング メトリック (https://scikit-learn.org/stable/modules/model_evaluation.html) を使用します。
  • keep_training: 一般的な TPOT 実行には、(小さいデータセットでなければ) 終了するまでに数時間から数日かかりますが、途中でいつでも実行を中断して、それまでの最適な結果を確認できます。keep_training が True に設定されている場合、TPOT は中断した箇所からトレーニングを続行します。
注: ファイルのターゲット列が既定値 (target) と異なる場合は、target_column 環境変数を手動で更新する必要があります。この操作を行うには、[新しいパイプライン実行を作成] ウィンドウで [パラメーターを入力] セクションの [+ 新規追加] ボタンをクリックします。[環境変数] フィールドに変数 (target_column) を追加し、[値] フィールドにファイルの列名を追加します。完了したら、アイコンをクリックします。


成果物

TPOT は、最適化されたパイプラインに関連する Python コードを、“TPOT_pipeline.py” という Python ファイルにエクスポートします。コードの実行が終了すると、“TPOT_pipeline.py” には最適化されたパイプラインの Python コードが含まれます。

  • モデルの詳細
  • 入力の種類
  • 入力の説明
  • 出力の説明
  • パイプライン
  • データセットの形式
  • 環境変数
  • 成果物
  • Paper

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.