ai-center
2024.10
true
UiPath logo, featuring letters U and I in white
AI Center ガイド
Automation CloudAutomation SuiteStandalone
Last updated 2024年11月11日

継続学習するカスタム NER を使用する

バックグラウンド情報

ここでは、研究論文で言及されている化学物質をカテゴリ別に抽出する方法を例に説明します。以下の手順に従って化学物質を抽出し、ABBREVIATION、FAMILY、FORMULA、IDENTIFIER、MULTIPLE、SYSTEMATIC、TRIVIAL および NO_CLASS に分類します。

推奨

Custom Named Entity Recognition (カスタム固有表現抽出) (NER) モデルを使用すべき状況

カスタム NER モデルを使用して以下を抽出する場合。

  • テキストの特別な情報。この情報は entity と呼ばれます。
  • 人名、場所、組織、位置、日付、数値など。抽出されるエンティティは相互に排他的です。エンティティは単一の単語レベルまたは複数の単語レベルであり、サブワード レベルではありません。たとえば、「I live in New York」という文の場合は「New York」をエンティティにすることができますが、「I read the New Yorker」という文の場合にはできません。

抽出されたエンティティは、情報抽出プロセスで直接使用できます。また、ソース テキストの分類、ソース テキストの感情分析、PHI などの下流のタスクの入力として使用することもできます。

トレーニング データセットに関する推奨事項

  • サンプル内のエンティティの密度が高い場合は、エンティティあたり少なくとも 200 個のサンプルを用意します。つまり、ほとんどのサンプル (75% 以上) に、これらのエンティティが 3 個から 5 個含まれるようにします。
  • エンティティの密度が低い (各サンプルのエンティティの数が 3 個未満である) 場合、つまり、どのエンティティもほとんどのドキュメントにごくわずかしか出現しない場合は、少なくともエンティティあたり 400 個のサンプルを使用することをお勧めします。これにより、モデルは判別性の高い特徴をより効果的に理解できます。
  • エンティティが 10 個を超える場合は、求めるパフォーマンス メトリックに達するまで、さらに 100 個のサンプルを段階的に追加します。

ベスト プラクティス

  1. 意味のあるエンティティを用意します。人間がエンティティを識別できなければ、モデルも識別することはできません。
  2. シンプルなエンティティを用意します。住所を 1 つのエンティティとして使用するのではなく、複数のエンティティ (番地、都道府県名、市町村名、郵便番号など) に分割します。
  3. トレーニング データセットとテスト データセットの両方を作成し、フル パイプラインを使用してトレーニングを行います。
  4. 最小限のサンプルから始めてアノテーションを行い、すべてのエンティティをカバーします。
  5. トレーニングとテストの両方の分割ですべてのエンティティが代表されていることを確認します。
  6. フル パイプラインを実行し、テスト メトリックを確認します。テスト メトリックが十分ではない場合は、分類レポートを確認し、パフォーマンスの低いエンティティを特定します。パフォーマンスの低いエンティティをカバーするサンプルをさらに追加し、目的のメトリックに達するまでトレーニング プロセスを繰り返します。

前提条件

この手順では、Custom Named Entity Recognition (カスタム固有表現抽出) パッケージを使用します。このパッケージの機能と用途については、「Custom Named Entity Recognition (カスタム固有表現抽出)」をご覧ください。

この手順は、以下のサンプル ファイルを使用して実行します。

  • CoNLL 形式の事前にラベル付けされたトレーニング データセット。こちらからダウンロードできます。
  • 事前にラベル付けされたテスト データセット。こちらからダウンロードできます。
  • 研究論文で言及されている化学物質をカテゴリ別に抽出するためのサンプル ワークフロー。こちらからダウンロードできます。
    注: サンプル ファイルに以下の変数が入力されていることを確認してください。
    • in_emailAdress - Action Center タスクが割り当てられるメール アドレス
    • in_MLSkillEndpoint - ML スキルのパブリック エンドポイント
    • in_MLSkillAPIKey - ML スキルの API キー
    • in_labelStudioEndpoint - (任意) 継続的なラベル付けを可能にします。Label Studio プロジェクトのインポート URL を指定します。

手順

研究論文で言及されている化学物質をカテゴリ別に抽出するには、以下の手順に従います。
  1. Import the sample dataset in UiPath® AI Center. To do so, go to the Datasets menu and upload the train and test folder from the sample.
  2. [ML パッケージ] > [すぐに使えるパッケージ] > [UiPath Language Analysis (UiPath 言語分析)] から目的のカスタム NER パッケージを選択して作成します。
  3. [パイプライン] メニューに移動して、前の手順で作成したパッケージの新しいフル パイプライン実行を作成します。サンプル ファイルで提供されているトレーニングおよびテスト データセットを指定します。

    完了すると、パイプラインの結果が [成果物] に表示されます。分類レポートをダウンロードして、テスト結果を評価できます。

  4. 前の手順のパイプライン実行で生成されたパッケージを使用して新しい ML スキルを作成し、デプロイします。
  5. Once the skill is deployed, leverage it in the UiPath® Studio workflow provided. To enable capturing data with weak predictions, deploy a Label Studio instance and provide the instance URL and API key in the Label Studio activity in the workflow.

Label Studio の使用を開始する

Label Studio の使用を開始して、AI Center にデータをエクスポートするには、以下の手順に従います。

  1. ローカル マシンまたはクラウド インスタンスに Label Studio をインストールします。こちらの手順に従ってください。
  2. Named Entity Recognition (固有表現抽出) テンプレートから新しいプロジェクトを作成して、ラベル名を指定します。


  3. ラベル名に特殊文字やスペースが含まれていないことを確認します。たとえば、Set Date ではなく SetDate を使用します。
  4. <Text> タグの値が "$text" であることを確認します。


  5. こちらの API を使用してデータをアップロードします。

    cURL 要求の例:

    curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
    --header 'Content-Type: application/json' \)\)
    --header 'Authorization: Token <Token>' \)\)
    --data-raw '[
        {
          "data": {
            "text": "<Text1>"
          },
        },
        {
          "data": {
            "text": "<Text2>"
           }
        }
    ]'curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
    --header 'Content-Type: application/json' \)\)
    --header 'Authorization: Token <Token>' \)\)
    --data-raw '[
        {
          "data": {
            "text": "<Text1>"
          },
        },
        {
          "data": {
            "text": "<Text2>"
           }
        }
    ]'
  6. データに注釈を付けます。
  7. データを CoNLL 2003 形式でエクスポートし、AI Center にアップロードします。
  8. 不正確で信頼度の低い予測をキャプチャするために、提供されているサンプル ワークフローで Label Studio インスタンスの URL と API キーを入力します。
  • バックグラウンド情報
  • 推奨
  • 前提条件
  • 手順
  • Label Studio の使用を開始する

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.