AI Center
2023.10
バナーの背景画像
AI Center ガイド
最終更新日 2024年4月19日

継続学習するカスタム NER を使用する

バックグラウンド情報

ここでは、研究論文で言及されている化学物質をカテゴリ別に抽出する方法を例に説明します。以下の手順に従って化学物質を抽出し、ABBREVIATION、FAMILY、FORMULA、IDENTIFIER、MULTIPLE、SYSTEMATIC、TRIVIAL および NO_CLASS に分類します。

推奨

Custom Named Entity Recognition (NER) モデルを使用する場合

カスタム NER モデルを使用して以下を抽出します。

  • テキストからの特別な情報。 この情報は entityと呼ばれます。
  • 人、場所、組織、場所、日付、数値などの名前。 抽出されるエンティティは相互に排他的です。 エンティティは、サブワードレベルではなく、単一または複数単語レベルです。 たとえば、I live in New York の文では、エンティティは New York にすることができますが、 I read the New Yorker の文には使用できません。

抽出されたエンティティは、情報抽出プロセスで直接使用することも、ソース テキストの分類、ソース テキストの感情分析、PHI などのダウンストリーム タスクへの入力として使用することもできます。

トレーニング データセットの推奨事項

  • エンティティがサンプル内で密集している場合は、エンティティあたり少なくとも 200 個のサンプルがあります。つまり、ほとんどのサンプル (75% 以上) には、これらのエンティティが 3 個から 5 個含まれています。
  • エンティティがまばらである (すべてのサンプルのエンティティが 3 つ未満) 場合、つまり、ほとんどのドキュメントに出現するエンティティがごくわずかである場合は、エンティティあたり少なくとも 400 個のサンプルを使用することをお勧めします。 これは、モデルが識別特徴をよりよく理解するのに役立ちます。
  • 10 を超えるエンティティがある場合は、目的のパフォーマンス メトリックに到達するまで、増分的に 100 個のサンプルを追加します。

ベスト プラクティス

  1. 意味のあるエンティティを持っている。人間がエンティティを識別できない場合、モデルも識別できません。
  2. 単純なエンティティを持つ。 単一のエンティティアドレスではなく、複数のエンティティ(通り名、州名、都市名、郵便番号など)に分割します。
  3. トレーニング データセットとテスト データセットの両方を作成し、トレーニングにはフル パイプラインを使用します。
  4. すべてのエンティティをカバーする、注釈用の最小限のサンプルから始めます。
  5. すべてのエンティティがトレーニングとテストの両方の分割で表されることを確認します。
  6. フル パイプラインを実行し、テスト メトリックを確認します。 テスト メトリックが十分でない場合は、分類レポートを確認し、パフォーマンスの低いエンティティを特定します。 パフォーマンスの低いエンティティをカバーするサンプルをさらに追加し、目的のメトリックに達するまでトレーニング プロセスを繰り返します。

前提条件

この手順では、Custom Named Entity Recognition (カスタム固有表現抽出) パッケージを使用します。このパッケージの機能と用途については、「Custom Named Entity Recognition (カスタム固有表現抽出)」をご覧ください。

この手順は、以下のサンプル ファイルを使用して実行します。

  • CoNLL 形式の事前にラベル付けされたトレーニング データセット。こちらからダウンロードできます。
  • 事前にラベル付けされたテスト データセット。こちらからダウンロードできます。
  • 研究論文で言及されている化学物質をカテゴリ別に抽出するためのサンプル ワークフロー。こちらからダウンロードできます。
    注: サンプル ファイルに以下の変数が入力されていることを確認してください。
    • in_emailAdress - Action Center タスクが割り当てられるメール アドレス
    • in_MLSkillEndpoint - ML スキルのパブリック エンドポイント
    • in_MLSkillAPIKey - ML スキルの API キー
    • in_labelStudioEndpoint - (任意) 継続的なラベル付けを可能にします。Label Studio プロジェクトのインポート URL を指定します。

手順

研究論文で言及されている化学物質をカテゴリ別に抽出するには、以下の手順に従います。
  1. UiPath AI Center™ にサンプル データセットをインポートします。そのためには、[データセット] メニューに移動し、サンプルの train および test フォルダーをアップロードします。
  2. [ML パッケージ] > [すぐに使えるパッケージ] > [UiPath Language Analysis (UiPath 言語分析)] から目的のカスタム NER パッケージを選択して作成します。
  3. [パイプライン] メニューに移動して、前の手順で作成したパッケージの新しいフル パイプライン実行を作成します。サンプル ファイルで提供されているトレーニングおよびテスト データセットを指定します。

    完了すると、パイプラインの結果が [成果物] に表示されます。分類レポートをダウンロードして、テスト結果を評価できます。

  4. 前の手順のパイプライン実行で生成されたパッケージを使用して新しい ML スキルを作成し、デプロイします。
  5. スキルをデプロイしたら、提供されている UiPath Studio ワークフローで利用します。 予測精度の低いデータをキャプチャできるようにするため、Label Studio インスタンスをデプロイして、ワークフローの Label Studio アクティビティに対するインスタンス URL と API キーを入力します。

Label Studio の使用を開始する

Label Studio の使用を開始して、AI Center にデータをエクスポートするには、以下の手順に従います。

  1. ローカル マシンまたはクラウド インスタンスに Label Studio をインストールします。こちらの手順を実行します。
  2. Named Entity Recognition (固有表現抽出) テンプレートから新しいプロジェクトを作成して、ラベル名を指定します。


  3. ラベル名に特殊文字やスペースが含まれていないことを確認します。たとえば、Set Date ではなく SetDate を使用します。
  4. <Text> タグの値が "$text" であることを確認します。


  5. こちらの API を使用してデータをアップロードします。

    cURL 要求の例:

    curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
    --header 'Content-Type: application/json' \)\)
    --header 'Authorization: Token <Token>' \)\)
    --data-raw '[
        {
          "data": {
            "text": "<Text1>"
          },
        },
        {
          "data": {
            "text": "<Text2>"
           }
        }
    ]'curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
    --header 'Content-Type: application/json' \)\)
    --header 'Authorization: Token <Token>' \)\)
    --data-raw '[
        {
          "data": {
            "text": "<Text1>"
          },
        },
        {
          "data": {
            "text": "<Text2>"
           }
        }
    ]'
  6. データに注釈を付けます。
  7. データを CoNLL 2003 形式でエクスポートし、AI Center にアップロードします。
  8. 不正確で信頼度の低い予測をキャプチャするために、提供されているサンプル ワークフローで Label Studio インスタンスの URL と API キーを入力します。
  • バックグラウンド情報
  • 推奨
  • 前提条件
  • 手順
  • Label Studio の使用を開始する

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.