ai-center

latest

false

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

AI Center

デリバリー:

最終更新日時 2025年5月2日

Text Classification (テキスト分類)

手記：すぐに使える ML パッケージはまもなく非推奨となります。詳しくは、『概要ガイド』の「非推奨化のタイムライン」をご覧ください。

[Open-Source Packages] > [Language Analysis] > [TextClassification]

これは、言語分類のための一般的で再トレーニング可能なモデルです。この ML パッケージは再トレーニングする必要があります。デプロイに先立ってトレーニングしていないと、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。

このモデルは、言語分類のためのディープラーニングアーキテクチャです。また、自然言語処理システムを事前にトレーニングするための自己教師あり学習の手法である BERT に基づいています。サービング時とトレーニング時の両方で GPU を使用できます。GPU によって、速度が 5 倍から 10 倍程度向上します。このモデルは、Facebook AI Research によってオープンソース化されています。

言語

モデルのパフォーマンスを高める主な要因は、トレーニングに使用するデータの品質です。また、このモデルのパラメーターを設定するために使用するデータも、パフォーマンスに影響を与えます。このモデルは、世界最大規模のインターネット百科事典 Wikipedia が対応していて、記事数も多い上位 100 の言語 (全言語のリストはこちらをご覧ください) でトレーニングされました。

モデルの詳細

入力の種類

JSON

入力の説明

文字列に分類されるテキスト:「I loved this movie.」

出力の説明

予測されたクラス名を伴う JSON、そのクラス予測に対する関連付けられた信頼度 (0～1)。

例：

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

パイプライン

このパッケージでは、3 つの種類のパイプラインすべて (フルトレーニング、トレーニング、評価) がサポートされています。

ほとんどのユースケースでは、パラメーターを指定する必要がなく、モデルは高度な手法を使用して高性能なモデルを検出します。2 回目以降のトレーニングでは、モデルは増分学習を使用します (トレーニングの実行の最後で、その前にトレーニングされたモデルが使用されます。

データセットの形式

このモデル用のデータセットを構造化するために、2 つのオプションを使用できます。両方のオプションを同時に使用することはできません。既定では、モデルは最上位のフォルダーディレクトリで dataset.csv ファイルを探します。見つかった場合はここでオプション 2 を使用し、見つからなかった場合はオプション 1 (フォルダー構造) を使用します。

フォルダー構造を使用してクラスを分離する

(データセットの最上位レベルで) クラスごとに 1 つのフォルダーを作成し、対応するフォルダーに、データポイントごとに 1 つのテキストファイルを追加します (フォルダーはクラスで、入力があるのはファイルのみです)。データセット構造は次のようになります。

Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..

1 つの CSV ファイルを使用する

すべてのデータを、データセットの最上位レベルで dataset.csv という 1 つの CSV ファイルに再グループ化します。このファイルには、input (テキスト) と target (クラス) の 2 つの列が必要です。以下のようになります。

input,target 
I like this movie,positive 
I hated the acting,negativeinput,target 
I like this movie,positive 
I hated the acting,negative

Paper

「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (BERT: 言語理解のための深層双方向 Transformer の事前トレーニング)」Devlin、Jacob および Chang、Ming-Wei および Lee、Kenton および Toutanova、Kristina

言語
モデルの詳細
入力の種類
入力の説明
出力の説明
パイプライン
データセットの形式
Paper

このページは役に立ちましたか?

前へObject Detection (オブジェクト検出)

次へTPOT AutoML Classification (TPOT AutoML分類)

サポートとサービス

サポートを受ける

UiPath アカデミー

RPA について学ぶ - オートメーションコース

UiPath コミュニティフォーラム