AI Center ガイド

デリバリー:

Automation Cloud Automation Suite Standalone

最終更新日時 2024年6月6日

継続学習するカスタム NER を使用する

バックグラウンド情報

ここでは、研究論文で言及されている化学物質をカテゴリ別に抽出する方法を例に説明します。以下の手順に従って化学物質を抽出し、ABBREVIATION、FAMILY、FORMULA、IDENTIFIER、MULTIPLE、SYSTEMATIC、TRIVIAL および NO_CLASS に分類します。

前提条件

この手順では、Custom Named Entity Recognition (カスタム固有表現抽出) パッケージを使用します。このパッケージの機能と用途については、「Custom Named Entity Recognition (カスタム固有表現抽出)」をご覧ください。

この手順は、以下のサンプルファイルを使用して実行します。

CoNLL 形式の事前にラベル付けされたトレーニングデータセット。こちらからダウンロードできます。
事前にラベル付けされたテストデータセット。こちらからダウンロードできます。
研究論文で言及されている化学物質をカテゴリ別に抽出するためのサンプルワークフロー。こちらからダウンロードできます。
注: サンプルファイルに以下の変数が入力されていることを確認してください。
- in_emailAdress - Action Center タスクが割り当てられるメールアドレス
- in_MLSkillEndpoint - ML スキルのパブリックエンドポイント
- in_MLSkillAPIKey - ML スキルの API キー
- in_labelStudioEndpoint - (任意) 継続的なラベル付けを可能にします。Label Studio プロジェクトのインポート URL を指定します。

手順

研究論文で言及されている化学物質をカテゴリ別に抽出するには、以下の手順に従います。

AI Center にサンプルデータセットをインポートします。そのためには、[ データセット] メニューに移動し、サンプルからトレーニングおよびテストフォルダーをアップロードします。
[ML パッケージ] > [すぐに使えるパッケージ] > [UiPath Language Analysis (UiPath 言語分析)] から目的のカスタム NER パッケージを選択して作成します。
[パイプライン] メニューに移動して、前の手順で作成したパッケージの新しいフルパイプライン実行を作成します。サンプルファイルで提供されているトレーニングおよびテストデータセットを指定します。
前の手順のパイプライン実行で生成されたパッケージを使用して新しい ML スキルを作成し、デプロイします。
スキルをデプロイしたら、提供されている UiPath Studio ワークフローで利用します。予測精度の低いデータをキャプチャできるようにするため、Label Studio インスタンスをデプロイして、ワークフローの Label Studio アクティビティに対するインスタンス URL と API キーを入力します。

Label Studio の使用を開始する

Label Studio の使用を開始して、AI Center にデータをエクスポートするには、以下の手順に従います。

ローカルマシンまたはクラウドインスタンスに Label Studio をインストールします。こちらの手順に従ってください。
Named Entity Recognition (固有表現抽出) テンプレートから新しいプロジェクトを作成して、ラベル名を指定します。
ラベル名に特殊文字やスペースが含まれていないことを確認します。たとえば、Set Date ではなく SetDate を使用します。
<Text> タグの値が "$text" であることを確認します。
こちらの API を使用してデータをアップロードします。
cURL 要求の例:
```
curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
--header 'Content-Type: application/json' \)\)
--header 'Authorization: Token <Token>' \)\)
--data-raw '[
    {
      "data": {
        "text": "<Text1>"
      },
    },
    {
      "data": {
        "text": "<Text2>"
       }
    }
]'curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
--header 'Content-Type: application/json' \)\)
--header 'Authorization: Token <Token>' \)\)
--data-raw '[
    {
      "data": {
        "text": "<Text1>"
      },
    },
    {
      "data": {
        "text": "<Text2>"
       }
    }
]'
```
データに注釈を付けます。
データを CoNLL 2003 形式でエクスポートし、AI Center にアップロードします。
不正確で信頼度の低い予測をキャプチャするために、提供されているサンプルワークフローで Label Studio インスタンスの URL と API キーを入力します。