ai-center
latest
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

AI Center

Automation CloudAutomation SuiteStandalone
最終更新日時 2024年11月19日

Text Classification (テキスト分類)

[Open-Source Packages] > [Language Analysis] > [TextClassification]

これは、言語分類のための一般的で再トレーニング可能なモデルです。この ML パッケージは再トレーニングする必要があります。デプロイに先立ってトレーニングしていないと、モデルがトレーニングされていないことを示すエラーが表示され、デプロイが失敗します。

このモデルは、言語分類のためのディープ ラーニング アーキテクチャです。また、自然言語処理システムを事前にトレーニングするための自己教師あり学習の手法である BERT に基づいています。サービング時とトレーニング時の両方で GPU を使用できます。GPU によって、速度が 5 倍から 10 倍程度向上します。このモデルは、Facebook AI Research によってオープン ソース化されています。

言語

モデルのパフォーマンスを高める主な要因は、トレーニングに使用するデータの品質です。また、このモデルのパラメーターを設定するために使用するデータも、パフォーマンスに影響を与えます。このモデルは、世界最大規模のインターネット百科事典 Wikipedia が対応していて、記事数も多い上位 100 の言語 (全言語のリストはこちらをご覧ください) でトレーニングされました。

モデルの詳細

入力の種類

JSON

入力の説明

文字列に分類されるテキスト:「I loved this movie.」

出力の説明

予測されたクラス名を伴う JSON、そのクラス予測に対する関連付けられた信頼度 (0~1)。

例:

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

パイプライン

このパッケージでは、3 つの種類のパイプラインすべて (フル トレーニング、トレーニング、評価) がサポートされています。

ほとんどのユース ケースでは、パラメーターを指定する必要がなく、モデルは高度な手法を使用して高性能なモデルを検出します。2 回目以降のトレーニングでは、モデルは増分学習を使用します (トレーニングの実行の最後で、その前にトレーニングされたモデルが使用されます。

データセットの形式

このモデル用のデータセットを構造化するために、2 つのオプションを使用できます。両方のオプションを同時に使用することはできません。既定では、モデルは最上位のフォルダー ディレクトリで dataset.csv ファイルを探します。見つかった場合はここでオプション 2 を使用し、見つからなかった場合はオプション 1 (フォルダー構造) を使用します。

フォルダー構造を使用してクラスを分離する

(データセットの最上位レベルで) クラスごとに 1 つのフォルダーを作成し、対応するフォルダーに、データ ポイントごとに 1 つのテキスト ファイルを追加します (フォルダーはクラスで、入力があるのはファイルのみです)。データセット構造は次のようになります。

Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..

1 つの CSV ファイルを使用する

すべてのデータを、データセットの最上位レベルで dataset.csv という 1 つの CSV ファイルに再グループ化します。このファイルには、input (テキスト) と target (クラス) の 2 つの列が必要です。以下のようになります。

input,target 
I like this movie,positive 
I hated the acting,negativeinput,target 
I like this movie,positive 
I hated the acting,negative
  • 言語
  • モデルの詳細
  • 入力の種類
  • 入力の説明
  • 出力の説明
  • パイプライン
  • データセットの形式
  • Paper

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.