AI Center ガイド

デリバリー:

最終更新日時 2025年2月26日

継続学習するカスタム NER を使用する

バックグラウンド情報

ここでは、研究論文で言及されている化学物質をカテゴリ別に抽出する方法を例に説明します。以下の手順に従って化学物質を抽出し、ABBREVIATION、FAMILY、FORMULA、IDENTIFIER、MULTIPLE、SYSTEMATIC、TRIVIAL および NO_CLASS に分類します。

推奨

Custom Named Entity Recognition (カスタム固有表現抽出) (NER) モデルを使用すべき状況

カスタム NER モデルを使用して以下を抽出する場合。

テキストの特別な情報。この情報は entity と呼ばれます。
人名、場所、組織、位置、日付、数値など。抽出されるエンティティは相互に排他的です。エンティティは単一の単語レベルまたは複数の単語レベルであり、サブワードレベルではありません。たとえば、「I live in New York」という文の場合は「New York」をエンティティにすることができますが、「I read the New Yorker」という文の場合にはできません。

抽出されたエンティティは、情報抽出プロセスで直接使用できます。また、ソーステキストの分類、ソーステキストの感情分析、PHI などの下流のタスクの入力として使用することもできます。

トレーニングデータセットに関する推奨事項

サンプル内のエンティティの密度が高い場合は、エンティティあたり少なくとも 200 個のサンプルを用意します。つまり、ほとんどのサンプル (75% 以上) に、これらのエンティティが 3 個から 5 個含まれるようにします。
エンティティの密度が低い (各サンプルのエンティティの数が 3 個未満である) 場合、つまり、どのエンティティもほとんどのドキュメントにごくわずかしか出現しない場合は、少なくともエンティティあたり 400 個のサンプルを使用することをお勧めします。これにより、モデルは判別性の高い特徴をより効果的に理解できます。
エンティティが 10 個を超える場合は、求めるパフォーマンスメトリックに達するまで、さらに 100 個のサンプルを段階的に追加します。

ベストプラクティス

意味のあるエンティティを用意します。人間がエンティティを識別できなければ、モデルも識別することはできません。
シンプルなエンティティを用意します。住所を 1 つのエンティティとして使用するのではなく、複数のエンティティ (番地、都道府県名、市町村名、郵便番号など) に分割します。
トレーニングデータセットとテストデータセットの両方を作成し、フルパイプラインを使用してトレーニングを行います。
最小限のサンプルから始めてアノテーションを行い、すべてのエンティティをカバーします。
トレーニングとテストの両方の分割ですべてのエンティティが代表されていることを確認します。
フルパイプラインを実行し、テストメトリックを確認します。テストメトリックが十分ではない場合は、分類レポートを確認し、パフォーマンスの低いエンティティを特定します。パフォーマンスの低いエンティティをカバーするサンプルをさらに追加し、目的のメトリックに達するまでトレーニングプロセスを繰り返します。

前提条件

この手順では、Custom Named Entity Recognition (カスタム固有表現抽出) パッケージを使用します。このパッケージの機能と用途については、「Custom Named Entity Recognition (カスタム固有表現抽出)」をご覧ください。

この手順は、以下のサンプルファイルを使用して実行します。

CoNLL 形式の事前にラベル付けされたトレーニングデータセット。こちらからダウンロードできます。
事前にラベル付けされたテストデータセット。こちらからダウンロードできます。
研究論文で言及されている化学物質をカテゴリ別に抽出するためのサンプルワークフロー。こちらからダウンロードできます。
注: サンプルファイルに以下の変数が入力されていることを確認してください。
- in_emailAdress - Action Center タスクが割り当てられるメールアドレス
- in_MLSkillEndpoint - ML スキルのパブリックエンドポイント
- in_MLSkillAPIKey - ML スキルの API キー
- in_labelStudioEndpoint - (任意) 継続的なラベル付けを可能にします。Label Studio プロジェクトのインポート URL を指定します。

手順

研究論文で言及されている化学物質をカテゴリ別に抽出するには、以下の手順に従います。

UiPath® AI Center にサンプルデータセットをインポートします。そのためには、[ データセット] メニューに移動し、サンプルの train と test フォルダーをアップロードします。
[ML パッケージ] > [すぐに使えるパッケージ] > [UiPath Language Analysis (UiPath 言語分析)] から目的のカスタム NER パッケージを選択して作成します。
[パイプライン] メニューに移動して、前の手順で作成したパッケージの新しいフルパイプライン実行を作成します。サンプルファイルで提供されているトレーニングおよびテストデータセットを指定します。

完了すると、パイプラインの結果が [成果物] に表示されます。分類レポートをダウンロードして、テスト結果を評価できます。
前の手順のパイプライン実行で生成されたパッケージを使用して新しい ML スキルを作成し、デプロイします。
スキルをデプロイしたら、提供されている UiPath® Studio ワークフローで利用します。予測精度の低いデータをキャプチャできるようにするため、Label Studio インスタンスをデプロイして、ワークフローの Label Studio アクティビティに対するインスタンス URL と API キーを入力します。

Label Studio の使用を開始する

Label Studio の使用を開始して、AI Center にデータをエクスポートするには、以下の手順に従います。

ローカルマシンまたはクラウドインスタンスに Label Studio をインストールします。こちらの手順に従ってください。
Named Entity Recognition (固有表現抽出) テンプレートから新しいプロジェクトを作成して、ラベル名を指定します。
ラベル名に特殊文字やスペースが含まれていないことを確認します。たとえば、Set Date ではなく SetDate を使用します。
<Text> タグの値が "$text" であることを確認します。

こちらの API を使用してデータをアップロードします。

cURL 要求の例:

 curl --location --request POST 'https:///api/projects//import' \)\)
--header 'Content-Type: application/json' \)\)
--header 'Authorization: Token ' \)\)
--data-raw '[
    {
      "data": {
        "text": ""
      },
    },
    {
      "data": {
        "text": ""
       }
    }
]'curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
--header 'Content-Type: application/json' \)\)
--header 'Authorization: Token <Token>' \)\)
--data-raw '[
    {
      "data": {
        "text": "<Text1>"
      },
    },
    {
      "data": {
        "text": "<Text2>"
       }
    }
]'