- リリース ノート
- 要件
- インストール
- 基本情報
- プロジェクト
- データセット
- ML パッケージ
- パイプライン
- ML スキル
- ML ログ
- AI Fabric での Document Understanding
- 基本的なトラブルシューティング ガイド
French Text Classification (フランス語テキスト分類)
[Open-Source Packages] > [Language Analysis] > [FrenchTextClassification]
予測されたクラス名、そのクラス予測に関連付けられた信頼度 (0-1)、および “all_predictions” フィールドで関連付けられた信頼度を持つすべてのクラスのリストを含む JSON 文字列。
例:
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
このパッケージでは、3 つの種類のパイプラインすべて (フル トレーニング、トレーニング、評価) がサポートされています。
モデルを初めてトレーニングする場合、提供されたデータセット全体を調べて、クラスが推測されます。モデルのトレーニングが完了すると、そのクラスが予測と今後の再トレーニングに使用されます。クラスをリセット (または、新しいクラスを追加) したい場合は、環境変数 reset を使用してモデルを再トレーニングする必要があります (以下を参照)。
GPU を使用するとパイプラインの実行が大幅に高速化されるため、大きなデータセットでのトレーニングには GPU を使用することをお勧めします。
この ML パッケージは、(サブディレクトリではなく) データセットで JSON ファイルと CSV ファイルを探します。
- CSV ファイル: input_column (既定の “テキスト”) および target_column (既定の “クラス”) という名前のヘッダーと、データごとに 1 つの行を持つ CSV が予期されます。
- JSON ファイル: input_column (既定の “テキスト”) フィールドと target_column (既定の “クラス”) フィールドを持つ 1 つのデータ ポイントのみが含まれることが予期されます。
- epochs: トレーニングまたはフル パイプラインのエポック数をカスタマイズします (既定値は 10)。
- input_column: データセットの入力列の名前 (既定の “テキスト”) に合わせて、この値を変更します。
- target_column: データセットの入力列の名前 (既定の “クラス”) に合わせて、この値を変更します。
- reset: この環境変数は、3 層のニューラル ネットワークをゼロから再トレーニングしたり、クラスを変更したりする場合に追加します。既定では、このモデルは転移学習を使用して、前のトレーニングと同じクラスを保持します。
評価関数によって、次の 2 つの成果物が生成されます。
-
predictions.csv: 4 つの列を持つ CSV ファイル:
- text: 分類される入力テキスト。
- class: データセットからのグラウンド トゥルース クラス。
- predicted_class: モデルによって予測されたクラス。
- confidence: 予測に関連付けられた信頼度スコア。
-
metrics.json: accuracy、macro averaged f1、precision、recall と、各クラスの f1、precision、recall を再グループ化する JSON ファイル。例:
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
Paper
「CamemBERT: a Tasty French Language Model (CamemBERT: 魅力的なフランス語の言語モデル)」Louis Martin、Benjamin Muller、Pedro Javier Ortiz Suárez、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah および Benoît Sagot