- リリース ノート
- 基本情報
- 通知
- プロジェクト
- データセット
- データのラベル付け
- ML パッケージ
- すぐに使えるパッケージ
- 概要
- English Text Classification (英語テキスト分類)
- French Text Classification (フランス語テキスト分類)
- Japanese Text Classification (日本語テキスト分類)
- Object Detection (オブジェクト検出)
- Text Classification (テキスト分類)
- TPOT AutoML Classification (TPOT AutoML分類)
- TPOT AutoML Regression (TPOT AutoML 回帰)
- TPOT XGBoost Classification (TPOT XGBoost 分類)
- TPOT XGBoost Regression (TPOT XGBoost 回帰)
- AI Computer Vision
- Communications Mining
- UiPath Document Understanding
- パイプライン
- ML スキル
- ML ログ
- AI Center の Document UnderstandingTM
- AI Center API
- ライセンス
- AI ソリューション テンプレート
- 使い方
- 基本的なトラブルシューティング ガイド
Japanese Text Classification (日本語テキスト分類)
[Open-Source Packages > [Language Analysis] > [JapaneseTextClassification]
これは、日本語分類のための一般的で再トレーニング可能なモデルです。この ML パッケージは再トレーニングする必要があります。デプロイ前にトレーニングを済ませていないと、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。
このモデルは、言語分類のためのディープ ラーニング アーキテクチャです。自然言語処理システムを事前にトレーニングするための自己教師あり学習の手法である BERT に基づいています。サービング時とトレーニング時の両方で GPU を使用できます。GPU によって、速度が 5 倍から 10 倍程度向上します。このモデルは、Google によってオープン ソース化されており、UiPath のベース モデルは東北大学で事前トレーニングされたものです。
このパッケージでは、3 つの種類のパイプラインすべて (フル トレーニング、トレーニング、評価) がサポートされています。
ほとんどのユース ケースでは、パラメーターを指定する必要がなく、モデルは高度な手法を使用して高性能なモデルを検出します。2 回目以降のトレーニングでは、モデルは増分学習を使用します (トレーニングの実行の最後で、その前にトレーニングされたモデルが使用されます。
複数のファイルを読み取る
このモデルでは既定で、指定されたディレクトリにある .csv および .json の拡張子を持つファイルをすべて再帰的に読み取ります。
CSV ファイル形式:
各 csv ファイルには複数の列が含まれると想定されますが、モデルで使用されるのは、そのうちの 2 列のみです。モデルで使用する列は、input_column パラメーターと target_column パラメーターで指定します。これらのパラメーターを設定しない場合は、それぞれの既定値である「input」と「target」になります。
たとえば、1 つの csv ファイルは以下のようになります。
input,target
この映画が好き,positive
演技が嫌だった,negative
input,target
この映画が好き,positive
演技が嫌だった,negative
上記のファイル例では、外部パラメーターを追加せずに任意の種類のパイプラインをトリガーできます。以下の例では、列を明示的に指定する必要があります。
review,sentiment
この映画が好き,positive
演技が嫌だった,negative
review,sentiment
この映画が好き,positive
演技が嫌だった,negative
input_column および target_column で指定した列のないファイルは無視されます。さらに、csv_delimiter パラメーターを設定することによって、ファイルの解析に使用する区切り文字を設定できます。たとえば、値が実際にはタブ区切りになっているファイルは、拡張子 .csv で保存し、パラメーター csv_delimiter を \t に設定します。
JSON ファイル形式:
各 json ファイルは、単一のデータ ポイントまたはデータ ポイントのリストとすることができます。つまり、各 JSON ファイルは 2 つの形式のいずれかとすることができます。次は、単一のデータ ポイントを記述した 1 つの json ファイルの例です。
{
"input": "この映画が好き",
"target": "positive"
}
{
"input": "この映画が好き",
"target": "positive"
}
次は、複数のデータ ポイントを記述した 1 つの json ファイルの例です。
[
{
"input": "この映画が好き",
"target": "positive"
},
{
"input": "演技が嫌だった",
"target": "negative"
}
]
[
{
"input": "この映画が好き",
"target": "positive"
},
{
"input": "演技が嫌だった",
"target": "negative"
}
]
csv ファイルの場合、input_column パラメーターと target_column パラメーターを設定していると、フォーマット処理によって「input」が input_column、「target」が target_column にそれぞれ置き換えられます。
すべての有効なファイル (上記のフォーマットに準拠するすべての csv ファイルおよび json ファイル) が集められます。
単一のファイルを読み取る
ディレクトリに多くのファイルがある場合でも、使用するファイルを 1 つのみとすると効果的なことがあります。この場合は、パラメーター csv_name を使用できます。このパラメーターを設定すると、パイプラインのみでファイルが読み取られます。また、さらに次の 2 つのパラメーターが有効化されます。
- csv_start_index: 読み取りを開始する行を指定できます。
- csv_end_index: 読み取りを終了する行を指定できます。
たとえば、20,000 行の大きなファイルがあり、そのデータの一部に対してどのようなトレーニングが実施されるか簡単に確認する必要があるとします。そのためには、ファイル名を指定し、csv_end_index の値を 20,000 よりはるかに小さい値に設定します。
- input_column: データセットの入力列の名前 (既定では input) に合わせて、この値を変更します。
- target_column: データセットの入力列の名前 (既定では target) に合わせて、この値を変更します。
- evaluation_metric: この値を設定することで、評価関数から返されて UI に表示されるメトリックを変更します。このパラメーターは「accuracy」(既定値)、「auroc」(ROC 曲線の下の領域)、「precision」、「recall」、「matthews correlation」(マシューズ相関係数)、「fscore」のいずれかの値に設定できます。
- csv_name: データセットから読み取る固有の csv ファイルを指定する場合に、この変数を使用します。
- csv_start_index: 読み取りを開始する行を指定できます。csv_name と組み合わせて使用します。
- csv_end_index: 読み取りを終了する行を指定できます。csv_name と組み合わせて使用します。
トレーニング関数によって次の 3 つの成果物が生成されます。
- train.csv - モデルのトレーニングに使用されたデータ。ガバナンスと追跡を目的として、ここで保存されます。
- validation.csv - モデルの検証に使用されたデータ。
learning-rate-finder.png
- ほとんどのユーザーは、これに配慮する必要はありません。上級ユーザーには有用なことがあります (詳細セクションを参照)。 - train-report.pdf - この実行の概要情報を記載したレポート。最初のセクションには、ユーザーが指定したパラメーターがすべて記述されています。その次のセクションには、データに関する統計が記述されています (ファイルごとのトレーニング、検証、チェックサム用のデータ ポイントの数)。最後のセクションには、次の 2 つのプロットが記述されています。
- 損失プロット – トレーニングと評価の損失がエポック数の関数としてプロットされています。出力される ML パッケージは、必ず検証された損失が最少のものです (最後のエポックにおけるモデルではありません)。
- メトリック プロット – 各エポックの最後で検証セットによって計算された多くのメトリックがプロットされています。
- evaluation.csv - モデルの評価に使用されたデータ。
- evaluation-report.pdf - この実行の概要情報を記載したレポート。最初のセクションには、ユーザーが指定したパラメーターがすべて記述されています。2 番目のセクションには、データに関する統計が記述されています (評価およびファイルのチェックサム用のデータ ポイントの数)。3 番目のセクションには、その評価に関する統計が記述されています (マルチクラスの場合、メトリックは重み付けされます)。最後のセクションには、混同行列のプロット、およびクラスごとの accuracy、precision、recall、support の計算値とその平均値が記述されています。
BERT:「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (BERT: 言語理解のための深層双方向 Transformer の事前トレーニング)」Jacob Devlin 他