AI Center
最新
バナーの背景画像
AI Center
最終更新日 2024年4月18日

Multilabel Text Classification (マルチラベル テキスト分類)

注:

Multilabel Text Classification は現在、パブリック プレビュー (試用版) の段階です。

UiPath は製品の安定性と品質の向上に取り組んでいますが、プレビュー機能はお客様からのフィードバックに基づいて、いつでも変更される可能性があります。運用環境のデプロイでは、プレビュー機能の使用をお勧めしません。

[すぐに使えるパッケージ] の [Multilabel Text Classification (マルチラベル テキスト分類)]

これは、複数のラベルでテキストをタグ付けするための、一般的で再トレーニング可能なモデルです。この ML パッケージはトレーニングする必要があります。デプロイする前にトレーニングしていないと、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。また、このパッケージは、自然言語処理システムを事前にトレーニングするための自己教師あり学習の手法である BERT に基づいています。トレーニング中は特に GPU が推奨されます。GPU によって、速度が 5 倍から 10 倍程度向上します。

言語

この多言語モデルでは、以下に表示する言語をサポートしています。これらの言語が選ばれた理由は、世界最大規模のインターネット百科事典 Wikipedia が対応していて、記事数も多い上位 100 の言語だからです。

  • アフリカーンス語
  • アルバニア語
  • アラビア語
  • アラゴン語
  • アルメニア語
  • アストゥリアス語
  • アゼルバイジャン語
  • バシキール語
  • バスク語
  • バイエルン語
  • ベラルーシ語
  • ベンガル語
  • ビシュヌプリヤ・マニプリ語
  • ボスニア語
  • ブルトン語
  • ブルガリア語
  • ビルマ語
  • カタロニア語
  • セブアノ語
  • チェチェン語
  • 中国語 (簡体)
  • 中国語 (繁体)
  • チュヴァシ語
  • クロアチア語
  • チェコ語
  • デンマーク語
  • オランダ語
  • English
  • エストニア語
  • フィンランド語
  • フランス語
  • ガリシア語
  • グルジア語
  • ドイツ語
  • ギリシャ語
  • グジャラート語
  • ハイチ語
  • ヘブライ語
  • ヒンディー語
  • ハンガリー語
  • アイスランド語
  • イド語
  • インドネシア語
  • アイルランド語
  • イタリア語
  • 日本語
  • ジャワ語
  • カンナダ語
  • カザフ語
  • キルギス語
  • 韓国語
  • ラテン語
  • ラトビア語
  • リトアニア語
  • ロンバード語
  • 低地ドイツ語
  • ルクセンブルク語
  • マケドニア語
  • マダガスカル語
  • マレー語
  • マラヤーラム語
  • マラーティー語
  • ミナンカバウ語
  • ネパール語
  • ネワール語
  • ノルウェー語 (ブークモール)
  • ノルウェー語 (ニーノシュク)
  • オック語
  • ペルシア語 (ファールシー)
  • ピエモンテ語
  • ポーランド語
  • ポルトガル語
  • パンジャブ語
  • ルーマニア語
  • ロシア語
  • スコットランド語
  • セルビア語
  • セルビア・クロアチア語
  • シチリア語
  • スロバキア語
  • スロベニア語
  • 南アゼルバイジャン語
  • スペイン語
  • スンダ語
  • スワヒリ語
  • スウェーデン語
  • タガログ語
  • タジク語
  • タミール語
  • タタール語
  • テルグ語
  • トルコ語
  • ウクライナ語
  • ウルドゥ語
  • ウズベク語
  • ベトナム語
  • ヴォラピュク
  • ワライ語
  • ウェールズ語
  • 西フリジア語
  • 西パンジャブ語
  • ヨルバ語

詳細

入力の種類

JSON

入力の説明

文字列に分類されるテキスト: 'I love this actor but I hate his movies.'

出力の説明

2 つのリストを含む JSON。最初のリストには予測されたラベルが含まれ、2 番目のリストには予測されたラベルに対して関連付けられた信頼度 (0-1) が含まれます。

例:

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

GPU の推奨

既定では、GPU が推奨されます。

トレーニングが有効

トレーニングは有効化されています。

パイプライン

このパッケージでは、3 つの種類のパイプライン (フル トレーニング、トレーニング、評価) がすべてサポートされています。ほとんどのユース ケースでは、パラメーターを指定する必要がなく、モデルは高度な手法を使用して高性能なモデルを検出します。2 回目以降のトレーニングでは、モデルは増分学習を使用します (トレーニングの実行の最後で、その前にトレーニングされたバージョンが使用されます)。

データセットの形式

このモデルは、指定したディレクトリのすべての CSV ファイルを読み取ります。各 CSV ファイルには、既定で 2 つの列または 2 つのプロパティ (textlabel) が含まれている必要があります。これら 2 つの列またはプロパティの名前は、環境変数を使用して設定できます。

CSV ファイル形式

各 CSV ファイルには任意の数の列を含めることができますが、モデルで使用されるのは、そのうちの 2 列のみです。モデルで使用する列は、dataset.text_column_name パラメーターと dataset.target_column_name パラメーターで指定します (これらのパラメーターが変更されない場合の既定値は、それぞれ「text」と「labels」です)。

たとえば、1 つの CSV ファイルは以下のようになります。

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

GPU または CPU に対するトレーニング

トレーニングには GPU または CPU を使用できます。より高速な GPU を使用することをお勧めします。

環境変数

  • dataset.text_column_name - 既定値は text
  • model.epochs - 既定値は 100
  • dataset.target_column_name - 既定値は label

成果物

混同行列

すべてのラベルに対応するために、Multilabel Text Classification の場合、混同行列は JSON ファイルになります。各ラベルの混同行列を提供しています ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

分類レポート

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

評価

これは、評価に使用されるテスト セットに関する予測を含む CSV ファイルです。

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.