ai-center

latest

false

基本情報
通知
- 自分への通知
プロジェクト
- プロジェクトについて
- プロジェクトを管理する
データセット
- データセットについて
- データセットを管理する
データのラベル付け
ML パッケージ
すぐに使えるパッケージ
パイプライン
ML スキル
- ML スキルについて
- ML スキルを管理する
ML ログ
- ML ログについて
AI Center の Document UnderstandingTM
- Document Manager
- OCR サービス
AI Center API
- 概要
- API リスト
ライセンス
AI ソリューションテンプレート
- AI ソリューションテンプレートについて
  - メール AI
使い方
- ML パッケージ
  - 継続学習するカスタム NER を使用する
- ML スキル
基本的なトラブルシューティングガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

AI Center ガイド

Japanese Text Classification (日本語テキスト分類)

注:

すぐに使える ML パッケージは非推奨になりました。詳しくは、『概要ガイド』の「非推奨化のタイムライン」のページをご覧ください。

[Open-Source Packages > [Language Analysis] > [JapaneseTextClassification]

これは、日本語分類のための一般的で再トレーニング可能なモデルです。この ML パッケージは再トレーニングする必要があります。デプロイ前にトレーニングを済ませていないと、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。

このモデルは、言語分類のためのディープラーニングアーキテクチャです。自然言語処理システムを事前にトレーニングするための自己教師あり学習の手法である BERT に基づいています。サービング時とトレーニング時の両方で GPU を使用できます。GPU によって、速度が 5 倍から 10 倍程度向上します。このモデルは、Google によってオープンソース化されており、UiPath のベースモデルは東北大学で事前トレーニングされたものです。

モデルの詳細

入力の種類

JSON

入力の説明

文字列に分類されるテキスト: "この映画が好き"

出力の説明

予測されたクラス名を伴う JSON、そのクラス予測に対する関連付けられた信頼度 (0～1)。

例：

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}
{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

パイプライン

このパッケージでは、3 つの種類のパイプラインすべて (フルトレーニング、トレーニング、評価) がサポートされています。

ほとんどのユースケースでは、パラメーターを指定する必要がなく、モデルは高度な手法を使用して高性能なモデルを検出します。2 回目以降のトレーニングでは、モデルは増分学習を使用します (トレーニングの実行の最後で、その前にトレーニングされたモデルが使用されます。

データセットの形式

複数のファイルを読み取る

このモデルでは既定で、指定されたディレクトリにある .csv および .json の拡張子を持つファイルをすべて再帰的に読み取ります。

CSV ファイル形式

各 csv ファイルには複数の列が含まれると想定されますが、モデルで使用されるのは、そのうちの 2 列のみです。モデルで使用する列は、input_column パラメーターと target_column パラメーターで指定します。これらのパラメーターを設定しない場合は、それぞれの既定値である「input」と「target」になります。

たとえば、1 つの csv ファイルは以下のようになります。

input,target 
この映画が好き,positive 
演技が嫌だった,negative
input,target 
この映画が好き,positive 
演技が嫌だった,negative

前のサンプルファイルでは、パラメーターを追加せずに任意の種類のパイプラインをトリガーできます。次の例では、列を明示的に指定する必要があります。

review,sentiment
この映画が好き,positive 
演技が嫌だった,negative
review,sentiment
この映画が好き,positive 
演技が嫌だった,negative

input_column および target_column で指定された列を持たないファイルはスキップされます。さらに、ファイルの解析に使用される区切り文字は、 csv_delimiter パラメーターを設定することで設定できます。たとえば、ファイルが実際にタブ区切りになっている場合は、extension.csvと一緒に保存し、パラメーター csv_delimiter を **** に設定します

JSON ファイル形式

各 json ファイルは、単一のデータポイントまたはデータポイントのリストとすることができます。つまり、各 JSON ファイルは 2 つの形式のいずれかとすることができます。次は、単一のデータポイントを記述した 1 つの json ファイルの例です。

{
  "input": "この映画が好き",
  "target": "positive"
}
{
  "input": "この映画が好き",
  "target": "positive"
}

次は、複数のデータポイントを記述した 1 つの json ファイルの例です。

[
  {
    "input": "この映画が好き",
    "target": "positive"
  },
  {
    "input": "演技が嫌だった",
    "target": "negative"
  }
]
[
  {
    "input": "この映画が好き",
    "target": "positive"
  },
  {
    "input": "演技が嫌だった",
    "target": "negative"
  }
]

csv ファイルの場合、input_column パラメーターと target_column パラメーターを設定していると、フォーマット処理によって「input」が input_column、「target」が target_column にそれぞれ置き換えられます。

すべての有効なファイルが結合されます。

単一のファイルを読み取る

ディレクトリに多くのファイルがある場合でも、使用するファイルを 1 つのみとすると効果的なことがあります。この場合は、パラメーター csv_name を使用できます。このパラメーターを設定すると、パイプラインのみでファイルが読み取られます。また、さらに次の 2 つのパラメーターが有効化されます。

csv_start_index: 読み取りを開始する行を指定できます。
csv_end_index: 読み取りを終了する行を指定できます。

たとえば、20,000 行の大きなファイルがあり、そのデータの一部に対してどのようなトレーニングが実施されるか簡単に確認する必要があるとします。そのためには、ファイル名を指定し、csv_end_index の値を 20,000 よりはるかに小さい値に設定します。

環境変数

input_column: データセットの入力列の名前 (既定では input) に合わせて、この値を変更します。
target_column: データセットの入力列の名前 (既定では target) に合わせて、この値を変更します。
evaluation_metric: この値を設定することで、評価関数から返されて UI に表示されるメトリックを変更します。このパラメーターは「accuracy」(既定値)、「auroc」(ROC 曲線の下の領域)、「precision」、「recall」、「matthews correlation」(マシューズ相関係数)、「fscore」のいずれかの値に設定できます。
csv_name: データセットから読み取る固有の csv ファイルを指定する場合に、この変数を使用します。
csv_start_index: 読み取りを開始する行を指定できます。csv_name と組み合わせて使用します。
csv_end_index: 読み取りを終了する行を指定できます。csv_name と組み合わせて使用します。

成果物

トレーニング関数によって次の 3 つの成果物が生成されます。

train.csv - モデルのトレーニングに使用されたデータ。ガバナンスと追跡を目的として、ここで保存されます。
validation.csv - モデルの検証に使用されたデータです。learning-rate-finder.png - ほとんどのユーザーはこれについて心配する必要はありません。上級ユーザーは、これが役に立つかもしれません。
train-report.pdf - この実行の概要情報を記載したレポート。最初のセクションには、ユーザーが指定したパラメーターがすべて記述されています。その次のセクションには、データに関する統計が記述されています (ファイルごとのトレーニング、検証、チェックサム用のデータポイントの数)。最後のセクションには、次の 2 つのプロットが記述されています。
- 損失プロット – トレーニングと評価の損失がエポック数の関数としてプロットされています。出力される ML パッケージは、必ず検証された損失が最少のものです (最後のエポックにおけるモデルではありません)。
- メトリクスプロット – これは、各エポックの終わりに検証セットで計算されたいくつかのメトリクスをプロットします。Evaluate 関数は、次の 2 つの成果物を生成します。
evaluation.csv - モデルの評価に使用されたデータ。
evaluation-report.pdf - この実行の概要情報を記載したレポート。最初のセクションには、ユーザーが指定したパラメーターがすべて記述されています。2 番目のセクションには、データに関する統計が記述されています (評価およびファイルのチェックサム用のデータポイントの数)。3 番目のセクションには、その評価に関する統計が記述されています (マルチクラスの場合、メトリックは重み付けされます)。最後のセクションには、混同行列のプロット、およびクラスごとの accuracy、precision、recall、support の計算値とその平均値が記述されています。

Paper

「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (BERT: 言語理解のための深層双方向 Transformer の事前トレーニング)」Jacob Devlin 他

モデルの詳細
入力の種類
入力の説明
出力の説明
パイプライン
データセットの形式
環境変数
成果物
Paper

このページは役に立ちましたか?

前へFrench Text Classification (フランス語テキスト分類)

次へObject Detection (オブジェクト検出)

AI Center ガイド

モデルの詳細​

入力の種類​

入力の説明​

出力の説明​

パイプライン​

データセットの形式​

CSV ファイル形式​

JSON ファイル形式​

環境変数​

成果物​

Paper​