UiPath Documentation
document-understanding
latest
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。

Document Understanding ガイド

UiPath® Helix Extractor 1.0

Helix Extractor 1.0 大規模言語モデル (LLM) は、UiPath® Document UnderstandingTM で一般提供されているデータ抽出モデルです。Helix Extractor 1.0 は以前のモデルと同様に動作しますが、多種多様なドキュメントを使用してトレーニングされています。このため、一般的なドキュメントの種類を、ほとんどまたはまったくトレーニングなしに処理できます。Helix Extractor 1.0 LLM の際立った特徴はその生成アーキテクチャです。これにより、精度が大幅に向上し、抽出が簡素化されます。さらに、独自のデータセットを使用してモデルを微調整することもできます。

Helix Extractor 1.0 のアーキテクチャとトレーニングに使用される手法について詳しくは、UiPath の AI に関するブログの「 Helix Extractor 1.0 」をご覧ください。

注:

UiPath Helix Extractor 2.0 が、欧州および米国のテナントでパブリック プレビューとして公開されました。詳しくは、「 UiPath Helix Extractor 2.0 」のページをご覧ください。

利用可能状況

現在、UiPath Helix Extractor は、米国を拠点とするテナント (GxP および政府機関向けクラウドを除く) において Document Understanding モダン プロジェクトでのみ利用できます。

以下のリージョンで パブリック エンドポイント を使用している場合は、クラシック プロジェクトとモダン プロジェクトの両方で UiPath Helix Extractor を使用できます。

  • 欧州の抽出モデルのパブリック エンドポイントは、財務諸表 を除き 、Helix Extractor に基づいています。
  • 抽出モデルの以下のパブリック エンドポイントは、日本リージョンでは Helix Extractor を基盤としています。
    • Invoices China (請求書 - 中国)
    • Invoices Japan (請求書 - 日本)
    • Receipts Japan (領収書 - 日本)

前世代からの改良点

Helix Extractor LLM では、以前のモデルに比べてさまざまな機能が強化されています。特に表の精度が向上するほか、さまざまなドキュメント レイアウトに適合するのでアノテーションの手間が減り、自動化率が向上します。

主な改良点は次のとおりです。

  • 精度の向上: Helix Extractor LLM では、請求書、領収書、発注書などの半構造化ドキュメントで精度が向上しており、F1 スコアも高くなっています。これにより、正確で一貫性のあるデータ抽出が保証されます。
  • 簡単なアノテーション: 1 つのドキュメントにつき 1 つのアノテーションで済むので、すべてのページでフィールドの各インスタンスにアノテーションを行う必要がなくなり、手動での作業が減ります。
  • 自動化の強化: Helix Extractor LLM は、信頼度レベルと適合率の相関性を高めることで自動化率を向上させると同時に、同じ適合率レベルで Action Center に送信されるドキュメントの数を減らします。

社内テストの結果、Helix Extractor は前モデルよりも優れたパフォーマンスを示しました。偽陽性率は約 15% 減少し、偽陰性率は約 17% 低下しました。

Helix Extractor の使用方法

Helix Extractor LLM は、Document Understanding モダン プロジェクトでのみ使用できます。Helix Extractor の導入後も、既存のプロジェクトのバージョンはすべて現在のモデル バージョンを使用します。これにより、進行中の運用ワークフローに中断を生じることなくシームレスに移行できます。

Helix Extractor で既存のドキュメントの種類のトレーニングを開始するには、数個のドキュメントのすべてのフィールドの確認を解除して確認します。

  1. Helix Extractor でトレーニングするドキュメントの種類を選択します。

  2. ドキュメントを選択します。

  3. ドキュメントのすべてのフィールドを選択し、[削除] を選択します。

  4. ドキュメントのすべてのフィールドにアノテーションを行い、[確認] を選択します。

    注:

    選択したドキュメントの種類でトレーニングが開始されるまで、手順 34 を繰り返します。

Helix Extractor が有効化されているかどうかの確認方法

モデルを Helix Extractor でトレーニングした後、モデルのバージョンをチェックして、Helix Extractor が有効化されていることを確認します。

  1. [パブリッシュ] ページに移動し、新しいプロジェクトのバージョンを作成します。

  2. プロジェクトのバージョンの横にある 3 点リーダー メニューのアイコン を選択し、[バージョンを編集] を選択してモデルのバージョンを確認します。

    注:

    バージョン 24.7 以降のモデルはすべて UiPath Helix Extractor モデルです。

結果を最適化する

選択するフィールド名は、モデルのパフォーマンスに大きく影響する可能性があります。最適な結果が得られるようにするには、フィールド名に対して自然言語と適切な文法を使用します。Number (No)、Account (Acct)、Address (Addr)、Apartment (Apt) など、広く認識されている頭字語のみを使用してください。現在サポートされているのは西ヨーロッパの言語のみであるため、選択したフィールド名がこれらの言語と一致するようにしてください。内容を表していない名前 (「Column 3」など) は、ドキュメントで明確にその用語が使用されている場合を除き、使用しないでください。

Helix Extractor とレガシ モデルの種類から選択する

現在、UiPath Helix Extractor でサポートされているのはラテン文字の言語のみです。ラテン文字以外の言語でモデルをトレーニングする必要がある場合は、レガシ モデルの種類を選択します。レガシ モデルを選択した場合は、ドキュメントの種類に適したベース モデルを選択します。

Helix Extractorまたはレガシ モデル タイプを選択するには、[ドキュメントの種類マネージャー] の [設定] タブに移動し、[モデル タイプ] ドロップダウン リストから必要なモデル タイプを選択します。

重要:

変更をデプロイした後、新しいプロジェクト バージョンをパブリッシュする必要があります。

UiPath® Helix Extractor の既知の制限事項

現在、UiPath Helix Extractor には以下の制限が適用されます。

  • 抽出されるフィールドが、ドキュメント内のテキストと完全に一致する必要があります。このプロセスには、要約やその他の種類のテキスト分析は含まれません。
  • 以下のドキュメントの種類は、現在のところ Helix Extractor に基づいておらず、引き続き前世代で機能します。
    • Financial Statements (財務諸表)
    • Invoices China (請求書 - 中国)
    • Invoices (請求書) (ヘブライ語)
    • Invoices Japan (請求書 - 日本)
ヒント:

現在Helix Extractorモデルでサポートされていないドキュメント タイプでは、[ ドキュメントの種類を追加 ] ドロップダウン リストに次のメッセージが表示されます。 このドキュメントの種類は、レガシ モデルを使用してトレーニングされます。

現在、UiPath Helix Extractor ではラテン文字以外の言語はサポートされていません。

このページは役に立ちましたか?

接続

ヘルプ リソース サポート

学習する UiPath アカデミー

質問する UiPath フォーラム

最新情報を取得