AI Center

French Text Classification (フランス語テキスト分類)

[Open-Source Packages] > [Language Analysis] > [FrenchTextClassification]

このモデルは、転移学習を使用するフランス語の一般的なテキスト分類モデルで、予測に使用し始める前にトレーニングする必要があります。CamemBERT の埋め込みに基づいており、データを分類するために、3 層の完全に接続されたニューラルネットワークを追加しています。CamemBERT は、RoBERTa アーキテクチャに基づき、HuggingFace による多言語コーパス OSCAR のフランス語のサブコーパスで事前トレーニングされた、フランス語の最先端の言語モデルです。

詳細

入力の種類

JSON

入力の説明

文字列に分類されるテキスト: "Mon séjour dans cet hôtel s’est très bien passé"

出力の説明

予測されたクラス名、そのクラス予測に関連付けられた信頼度 (0-1)、および “all_predictions” フィールドで関連付けられた信頼度を持つすべてのクラスのリストを含む JSON 文字列。

例：

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

パイプライン

このパッケージでは、3 つの種類のパイプラインすべて (フルトレーニング、トレーニング、評価) がサポートされています。

モデルを初めてトレーニングする場合、提供されたデータセット全体を調べて、クラスが推測されます。モデルのトレーニングが完了すると、そのクラスが予測と今後の再トレーニングに使用されます。クラスをリセット (または、新しいクラスを追加) したい場合は、環境変数 reset を使用してモデルを再トレーニングする必要があります (以下を参照)。

GPU を使用するとパイプラインの実行が大幅に高速化されるため、大きなデータセットでのトレーニングには GPU を使用することをお勧めします。

データセットの形式

この ML パッケージは、(サブディレクトリではなく) データセットで JSON ファイルと CSV ファイルを探します。

CSV ファイル: input_column (既定の “テキスト”) および target_column (既定の “クラス”) という名前のヘッダーと、データごとに 1 つの行を持つ CSV が予期されます。
JSON ファイル: input_column (既定の “テキスト”) フィールドと target_column (既定の “クラス”) フィールドを持つ 1 つのデータポイントのみが含まれることが予期されます。

環境変数

epochs: トレーニングまたはフルパイプラインのエポック数をカスタマイズします (既定値は 10)。
input_column: データセットの入力列の名前 (既定の “テキスト”) に合わせて、この値を変更します。
target_column: データセットの入力列の名前 (既定の “クラス”) に合わせて、この値を変更します。
reset: この環境変数は、3 層のニューラルネットワークをゼロから再トレーニングしたり、クラスを変更したりする場合に追加します。既定では、このモデルは転移学習を使用して、前のトレーニングと同じクラスを保持します。

成果物

評価関数によって、次の 2 つの成果物が生成されます。

predictions.csv: 4 つの列を持つ CSV ファイル:
- text: 分類される入力テキスト。
- class: データセットからのグラウンドトゥルースクラス。
- predicted_class: モデルによって予測されたクラス。
- confidence: 予測に関連付けられた信頼度スコア。

metrics.json: accuracy、macro averaged f1、precision、recall と、各クラスの f1、precision、recall を再グループ化する JSON ファイル。例:

{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}

Paper

「CamemBERT: a Tasty French Language Model (CamemBERT: 魅力的なフランス語の言語モデル)」Louis Martin、Benjamin Muller、Pedro Javier Ortiz Suárez、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah および Benoît Sagot

https://camembert-model.fr/