AI Center - Multilabel Text Classification (マルチラベルテキスト分類)

ai-center

latest

false

AI Center ガイド

スタートアップガイド
通知
- 自分への通知
プロジェクト
- プロジェクトについて
- プロジェクトを管理する
データセット
- データセットについて
- データセットを管理する
データのラベル付け
ML パッケージ
すぐに使えるパッケージ
パイプライン
ML スキル
- ML スキルについて
- ML スキルを管理する
ML ログ
- ML ログについて
AI Center の Document UnderstandingTM
- Document Manager
- OCR サービス
AI Center API
- 概要
- API リスト
ライセンス
AI ソリューションテンプレート
- AI ソリューションテンプレートについて
  - メール AI
使い方
- ML パッケージ
  - 継続学習するカスタム NER を使用する
- ML スキル
基本的なトラブルシューティングガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

Multilabel Text Classification (マルチラベルテキスト分類)

MultilabelTextClassification (マルチラベルテキスト分類): AI Center のすぐに使える ML パッケージです。テキストを複数の同時カテゴリに分類するためのプレビューモデルです。

注:

この ML パッケージはまもなく非推奨となります。詳しくは、『概要ガイド』の「非推奨化のタイムライン」のページをご覧ください。

注:

Multilabel Text Classification は現在、パブリックプレビュー (試用版) の段階です。

UiPath® では製品の安定性と品質に努めていますが、プレビュー機能は、お客様から受け取ったフィードバックに基づいて常に変更される可能性があります。運用環境のデプロイでは、プレビュー機能の使用は推奨されません。

[すぐに使えるパッケージ] の [Multilabel Text Classification (マルチラベルテキスト分類)]

これは、複数のラベルでテキストをタグ付けするための、一般的で再トレーニング可能なモデルです。この ML パッケージはトレーニングする必要があります。デプロイする前にトレーニングしていないと、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。また、このパッケージは、自然言語処理システムを事前にトレーニングするための自己教師あり学習の手法である BERT に基づいています。トレーニング中は特に GPU が推奨されます。GPU によって、速度が 5 倍から 10 倍程度向上します。

言語

この多言語モデルは、次の一覧の言語をサポートしています。これらの言語が選ばれたのは、ウィキペディアが最大の上位100言語であるためです。

アフリカーンス語
アルバニア語
アラビア語
アラゴン語
アルメニア語
アストゥリアス語
アゼルバイジャン語
バシキール語
バスク語
バイエルン語
ベラルーシ語
ベンガル語
ビシュヌプリヤ・マニプリ語
ボスニア語
ブルトン語
ブルガリア語
ビルマ語
カタロニア語
セブアノ語
チェチェン語
中国語 (簡体)
中国語 (繁体)
チュヴァシ語
クロアチア語
チェコ語
デンマーク語
オランダ語
英語
エストニア語
フィンランド語
フランス語
ガリシア語
グルジア語
ドイツ語
ギリシャ語
グジャラート語
ハイチ語
ヘブライ語
ヒンディー語
ハンガリー語
アイスランド語
イド語
インドネシア語
アイルランド語
イタリア語
日本語
ジャワ語
カンナダ語
カザフ語
キルギス語
韓国語
ラテン語
ラトビア語
リトアニア語
ロンバード語
低地ドイツ語
ルクセンブルク語
マケドニア語
マダガスカル語
マレー語
マラヤーラム語
マラーティー語
ミナンカバウ語
ネパール語
ネワール語
ノルウェー語 (ブークモール)
ノルウェー語 (ニーノシュク)
オック語
ペルシア語 (ファールシー)
ピエモンテ語
ポーランド語
ポルトガル語
パンジャブ語
ルーマニア語
ロシア語
スコットランド語
セルビア語
セルビア・クロアチア語
シチリア語
スロバキア語
スロベニア語
南アゼルバイジャン語
スペイン語
スンダ語
スワヒリ語
スウェーデン語
タガログ語
タジク語
タミール語
タタール語
テルグ語
トルコ語
ウクライナ語
ウルドゥ語
ウズベク語
ベトナム語
ヴォラピュク
ワライ語
ウェールズ語
西フリジア語
西パンジャブ語
ヨルバ語

モデルの詳細

入力の種類

JSON

入力の説明

文字列に分類されるテキスト: 'I love this actor but I hate his movies.'

出力の説明

2 つのリストを含む JSON。最初のリストには予測されたラベルが含まれ、2 番目のリストには予測されたラベルに対して関連付けられた信頼度 (0-1) が含まれます。

例：

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}
{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

既定では、GPU が推奨されます。

トレーニングが有効

トレーニングは有効化されています。

パイプライン

このパッケージでは、3 つの種類のパイプライン (フルトレーニング、トレーニング、評価) がすべてサポートされています。ほとんどのユースケースでは、パラメーターを指定する必要がなく、モデルは高度な手法を使用して高性能なモデルを検出します。2 回目以降のトレーニングでは、モデルは増分学習を使用します (トレーニングの実行の最後で、その前にトレーニングされたバージョンが使用されます)。

データセットの形式

このモデルは、指定したディレクトリのすべての CSV ファイルを読み取ります。各 CSV ファイルには、既定で 2 つの列または 2 つのプロパティ (text と label) が含まれている必要があります。これら 2 つの列またはプロパティの名前は、環境変数を使用して設定できます。

CSV ファイル形式

各 CSV ファイルには任意の数の列を含めることができますが、モデルで使用されるのは、そのうちの 2 列のみです。モデルで使用する列は、dataset.text_column_name パラメーターと dataset.target_column_name パラメーターで指定します (これらのパラメーターが変更されない場合の既定値は、それぞれ「text」と「labels」です)。

たとえば、1 つの CSV ファイルは以下のようになります。

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

GPU または CPU に対するトレーニング

トレーニングには GPU または CPU を使用できます。より高速な GPU を使用することをお勧めします。

環境変数

dataset.text_column_name - 既定値は text
model.epochs - 既定値は 100
dataset.target_column_name - 既定値は label

成果物

混同行列

すべてのラベルに対応するために、Multilabel Text Classification の場合、混同行列は JSON ファイルになります。各ラベルの混同行列を提供しています ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}
{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

分類レポート

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}
{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

評価

これは、評価に使用されるテストセットに関する予測を含む CSV ファイルです。

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

このページは役に立ちましたか?

前へSemantic similarity (意味的類似性)

次へUiPath Image Analysis (UiPath 画像分析)

言語​

モデルの詳細​

入力の種類​

入力の説明​

出力の説明​

GPU の推奨​

トレーニングが有効​

パイプライン​

データセットの形式​

CSV ファイル形式​

GPU または CPU に対するトレーニング​

環境変数​

成果物​

混同行列​

分類レポート​

評価​