- リリース ノート
- 基本情報
- 通知
- プロジェクト
- データセット
- データのラベル付け
- ML パッケージ
- すぐに使えるパッケージ
- 概要
- Custom Named Entity Recognition (カスタム固有表現抽出)
- Light Text Classification (ライト テキスト分類)
- Multilingual Text Classification (多言語テキスト分類)
- Semantic similarity (意味的類似性)
- Multilabel Text Classification (マルチラベル テキスト分類)
- English Text Classification (英語テキスト分類)
- French Text Classification (フランス語テキスト分類)
- Japanese Text Classification (日本語テキスト分類)
- Object Detection (オブジェクト検出)
- Text Classification (テキスト分類)
- TPOT AutoML Classification (TPOT AutoML分類)
- TPOT AutoML Regression (TPOT AutoML 回帰)
- TPOT XGBoost Classification (TPOT XGBoost 分類)
- TPOT XGBoost Regression (TPOT XGBoost 回帰)
- AI Computer Vision
- Communications Mining
- UiPath Document Understanding
- パイプライン
- ML スキル
- ML ログ
- AI Center の Document UnderstandingTM
- AI Center API
- ライセンス
- AI ソリューション テンプレート
- 使い方
- 基本的なトラブルシューティング ガイド
Multilabel Text Classification (マルチラベル テキスト分類)
Multilabel Text Classification は現在、パブリック プレビュー (試用版) の段階です。
UiPath® は製品の安定性と品質の向上に取り組んでいますが、プレビュー機能はお客様からのフィードバックに基づいて、いつでも変更される可能性があります。 プレビュー機能の使用は、運用環境のデプロイではお勧めしません。
[すぐに使えるパッケージ] の [Multilabel Text Classification (マルチラベル テキスト分類)]
これは、複数のラベルでテキストをタグ付けするための、一般的で再トレーニング可能なモデルです。この ML パッケージはトレーニングする必要があります。デプロイする前にトレーニングしていないと、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。また、このパッケージは、自然言語処理システムを事前にトレーニングするための自己教師あり学習の手法である BERT に基づいています。トレーニング中は特に GPU が推奨されます。GPU によって、速度が 5 倍から 10 倍程度向上します。
この多言語モデルでは、以下に表示する言語をサポートしています。これらの言語が選ばれた理由は、世界最大規模のインターネット百科事典 Wikipedia が対応していて、記事数も多い上位 100 の言語だからです。
- アフリカーンス語
- アルバニア語
- アラビア語
- アラゴン語
- アルメニア語
- アストゥリアス語
- アゼルバイジャン語
- バシキール語
- バスク語
- バイエルン語
- ベラルーシ語
- ベンガル語
- ビシュヌプリヤ・マニプリ語
- ボスニア語
- ブルトン語
- ブルガリア語
- ビルマ語
- カタロニア語
- セブアノ語
- チェチェン語
- 中国語 (簡体)
- 中国語 (繁体)
- チュヴァシ語
- クロアチア語
- チェコ語
- デンマーク語
- オランダ語
- 英語
- エストニア語
- フィンランド語
- フランス語
- ガリシア語
- グルジア語
- ドイツ語
- ギリシャ語
- グジャラート語
- ハイチ語
- ヘブライ語
- ヒンディー語
- ハンガリー語
- アイスランド語
- イド語
- インドネシア語
- アイルランド語
- イタリア語
- 日本語
- ジャワ語
- カンナダ語
- カザフ語
- キルギス語
- 韓国語
- ラテン語
- ラトビア語
- リトアニア語
- ロンバード語
- 低地ドイツ語
- ルクセンブルク語
- マケドニア語
- マダガスカル語
- マレー語
- マラヤーラム語
- マラーティー語
- ミナンカバウ語
- ネパール語
- ネワール語
- ノルウェー語 (ブークモール)
- ノルウェー語 (ニーノシュク)
- オック語
- ペルシア語 (ファールシー)
- ピエモンテ語
- ポーランド語
- ポルトガル語
- パンジャブ語
- ルーマニア語
- ロシア語
- スコットランド語
- セルビア語
- セルビア・クロアチア語
- シチリア語
- スロバキア語
- スロベニア語
- 南アゼルバイジャン語
- スペイン語
- スンダ語
- スワヒリ語
- スウェーデン語
- タガログ語
- タジク語
- タミール語
- タタール語
- テルグ語
- トルコ語
- ウクライナ語
- ウルドゥ語
- ウズベク語
- ベトナム語
- ヴォラピュク
- ワライ語
- ウェールズ語
- 西フリジア語
- 西パンジャブ語
- ヨルバ語
2 つのリストを含む JSON。最初のリストには予測されたラベルが含まれ、2 番目のリストには予測されたラベルに対して関連付けられた信頼度 (0-1) が含まれます。
例:
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
このパッケージでは、3 つの種類のパイプライン (フル トレーニング、トレーニング、評価) がすべてサポートされています。ほとんどのユース ケースでは、パラメーターを指定する必要がなく、モデルは高度な手法を使用して高性能なモデルを検出します。2 回目以降のトレーニングでは、モデルは増分学習を使用します (トレーニングの実行の最後で、その前にトレーニングされたバージョンが使用されます)。
text
と label
) が含まれている必要があります。これら 2 つの列またはプロパティの名前は、環境変数を使用して設定できます。
CSV ファイル形式
text
」と「labels
」です)。
たとえば、1 つの CSV ファイルは以下のようになります。
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
- dataset.text_column_name - 既定値は
text
- model.epochs - 既定値は
100
- dataset.target_column_name - 既定値は
label
混同行列
すべてのラベルに対応するために、Multilabel Text Classification の場合、混同行列は JSON ファイルになります。各ラベルの混同行列を提供しています ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
分類レポート
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
評価
これは、評価に使用されるテスト セットに関する予測を含む CSV ファイルです。
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]