AI Center - French Text Classification (フランス語テキスト分類)

ai-center

latest

false

AI Center ガイド

基本情報
通知
- 自分への通知
プロジェクト
- プロジェクトについて
- プロジェクトを管理する
データセット
- データセットについて
- データセットを管理する
データのラベル付け
ML パッケージ
すぐに使えるパッケージ
パイプライン
ML スキル
- ML スキルについて
- ML スキルを管理する
ML ログ
- ML ログについて
AI Center の Document UnderstandingTM
- Document Manager
- OCR サービス
AI Center API
- 概要
- API リスト
ライセンス
AI ソリューションテンプレート
- AI ソリューションテンプレートについて
  - メール AI
使い方
- ML パッケージ
  - 継続学習するカスタム NER を使用する
- ML スキル
基本的なトラブルシューティングガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

French Text Classification (フランス語テキスト分類)

FrenchTextClassification - AI Center のオープンソース ML パッケージです。フランス語テキストの分類のための非推奨の再トレーニング可能なモデルです。

注:

すぐに使える ML パッケージは非推奨になりました。詳しくは、『概要ガイド』の「非推奨化のタイムライン」のページをご覧ください。

[Open-Source Packages] > [Language Analysis] > [FrenchTextClassification]

このモデルは、転移学習を使用するフランス語の一般的なテキスト分類モデルで、予測に使用し始める前にトレーニングする必要があります。CamemBERT の埋め込みに基づいており、データを分類するために、3 層の完全に接続されたニューラルネットワークを追加しています。CamemBERT は、RoBERTa アーキテクチャに基づき、HuggingFace による多言語コーパス OSCAR のフランス語のサブコーパスで事前トレーニングされた、フランス語の最先端の言語モデルです。

モデルの詳細

入力の種類

JSON

入力の説明

文字列に分類されるテキスト: "Mon séjour dans cet hôtel s’est très bien passé"

出力の説明

予測されたクラス名、そのクラス予測に関連付けられた信頼度 (0-1)、および “all_predictions” フィールドで関連付けられた信頼度を持つすべてのクラスのリストを含む JSON 文字列。

例：

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}
{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

パイプライン

このパッケージでは、3 つの種類のパイプラインすべて (フルトレーニング、トレーニング、評価) がサポートされています。

モデルを初めてトレーニングするときは、提供されたデータセット全体を見てクラスを推測します。モデルのトレーニングが完了すると、同じクラスが予測と将来の再トレーニングに使用されます。クラスをリセットする (または新しいクラスを追加する) 場合は、環境変数 reset を使用してモデルを再トレーニングする必要があります。

GPU を使用するとパイプラインの実行が大幅に高速化されるため、大きなデータセットでのトレーニングには GPU を使用することをお勧めします。

データセットの形式

この ML パッケージは、(サブディレクトリではなく) データセットで JSON ファイルと CSV ファイルを探します。

CSV ファイル: input_column (既定の “テキスト”) および target_column (既定の “クラス”) という名前のヘッダーと、データごとに 1 つの行を持つ CSV が予期されます。
JSON ファイル: input_column (既定の “テキスト”) フィールドと target_column (既定の “クラス”) フィールドを持つ 1 つのデータポイントのみが含まれることが予期されます。

環境変数

epochs: トレーニングまたはフルパイプラインのエポック数をカスタマイズします (既定値は 10)。
input_column: データセットの入力列の名前 (既定の “テキスト”) に合わせて、この値を変更します。
target_column: データセットの入力列の名前 (既定の “クラス”) に合わせて、この値を変更します。
reset: この環境変数は、3 層のニューラルネットワークをゼロから再トレーニングしたり、クラスを変更したりする場合に追加します。既定では、このモデルは転移学習を使用して、前のトレーニングと同じクラスを保持します。

成果物

評価関数によって、次の 2 つの成果物が生成されます。

predictions.csv: 4 つの列を持つ CSV ファイル:
- text: 分類される入力テキスト。
- class: データセットからのグラウンドトゥルースクラス。
- predicted_class: モデルによって予測されたクラス。
- confidence: 予測に関連付けられた信頼度スコア。

metrics.json: accuracy、macro averaged f1、precision、recall と、各クラスの f1、precision、recall を再グループ化する JSON ファイル。例:

{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}
{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}

紙

「CamemBERT: a Tasty French Language Model (CamemBERT: 魅力的なフランス語の言語モデル)」Louis Martin、Benjamin Muller、Pedro Javier Ortiz Suárez、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah および Benoît Sagot

https://camembert-model.fr/

モデルの詳細
入力の種類
入力の説明
出力の説明
パイプライン
データセットの形式
環境変数
成果物
Paper

このページは役に立ちましたか?

前へEnglish Text Classification (英語テキスト分類)

次へJapanese Text Classification (日本語テキスト分類)

モデルの詳細​

入力の種類​

入力の説明​

出力の説明​

パイプライン​

データセットの形式​

環境変数​

成果物​

紙​