- リリース ノート
- 基本情報
- 通知
- プロジェクト
- データセット
- データのラベル付け
- ML パッケージ
- すぐに使えるパッケージ
- 概要
- English Text Classification (英語テキスト分類)
- French Text Classification (フランス語テキスト分類)
- Japanese Text Classification (日本語テキスト分類)
- Object Detection (オブジェクト検出)
- Text Classification (テキスト分類)
- TPOT AutoML Classification (TPOT AutoML分類)
- TPOT AutoML Regression (TPOT AutoML 回帰)
- TPOT XGBoost Classification (TPOT XGBoost 分類)
- TPOT XGBoost Regression (TPOT XGBoost 回帰)
- AI Computer Vision
- Communications Mining
- UiPath Document Understanding
- パイプライン
- ML スキル
- ML ログ
- AI Center の Document UnderstandingTM
- AI Center API
- ライセンス
- AI ソリューション テンプレート
- 使い方
- 基本的なトラブルシューティング ガイド
Text Classification (テキスト分類)
[Open-Source Packages] > [Language Analysis] > [TextClassification]
これは、言語分類のための一般的で再トレーニング可能なモデルです。この ML パッケージは再トレーニングする必要があります。デプロイに先立ってトレーニングしていないと、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。
このモデルは、言語分類のためのディープ ラーニング アーキテクチャです。また、自然言語処理システムを事前にトレーニングするための自己教師あり学習の手法である BERT に基づいています。サービング時とトレーニング時の両方で GPU を使用できます。GPU によって、速度が 5 倍から 10 倍程度向上します。このモデルは、Facebook AI Research によってオープン ソース化されています。
モデルのパフォーマンスを高める主な要因は、トレーニングに使用するデータの品質です。また、このモデルのパラメーターを設定するために使用するデータも、パフォーマンスに影響を与えます。このモデルは、世界最大規模のインターネット百科事典 Wikipedia が対応していて、記事数も多い上位 100 の言語 (全言語のリストはこちらをご覧ください) でトレーニングされました。
このパッケージでは、3 つの種類のパイプラインすべて (フル トレーニング、トレーニング、評価) がサポートされています。
ほとんどのユース ケースでは、パラメーターを指定する必要がなく、モデルは高度な手法を使用して高性能なモデルを検出します。2 回目以降のトレーニングでは、モデルは増分学習を使用します (トレーニングの実行の最後で、その前にトレーニングされたモデルが使用されます。
このモデル用のデータセットを構造化するために、2 つのオプションを使用できます。両方のオプションを同時に使用することはできません。既定では、モデルは最上位のフォルダー ディレクトリで dataset.csv ファイルを探します。見つかった場合はここでオプション 2 を使用し、見つからなかった場合はオプション 1 (フォルダー構造) を使用します。
フォルダー構造を使用してクラスを分離する
(データセットの最上位レベルで) クラスごとに 1 つのフォルダーを作成し、対応するフォルダーに、データ ポイントごとに 1 つのテキスト ファイルを追加します (フォルダーはクラスで、入力があるのはファイルのみです)。データセット構造は次のようになります。
Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..
Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..
1 つの CSV ファイルを使用する
すべてのデータを、データセットの最上位レベルで dataset.csv という 1 つの CSV ファイルに再グループ化します。このファイルには、input (テキスト) と target (クラス) の 2 つの列が必要です。以下のようになります。
input,target
I like this movie,positive
I hated the acting,negative
input,target
I like this movie,positive
I hated the acting,negative
「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (BERT: 言語理解のための深層双方向 Transformer の事前トレーニング)」Devlin、Jacob および Chang、Ming-Wei および Lee、Kenton および Toutanova、Kristina