document-understanding
latest
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding モダン プロジェクト ユーザー ガイド

最終更新日時 2026年3月3日

UiPath® Helix Extractor 1.0

Helix Extractor 1.0 大規模言語モデル (LLM) は UiPath の最新のデータ抽出モデル テクノロジであり、UiPath® Document UnderstandingTM 内で使用されている現行世代のモデルを置き換えるように設計されています。Helix Extractor 1.0 は以前のモデルと同様に動作しますが、多種多様なドキュメントを使用してトレーニングされています。このため、一般的なドキュメントの種類を、ほとんどまたはまったくトレーニングなしに処理できます。Helix Extractor 1.0 LLM の際立った特徴はその生成アーキテクチャです。これにより、精度が大幅に向上し、抽出が簡素化されます。さらに、独自のデータセットを使用してモデルを微調整することもできます。

Helix Extractor 1.0 のアーキテクチャとトレーニングに使用される手法について詳しくは、UiPath の AI に関するブログの「Helix Extractor 1.0」をご覧ください。

利用可能状況

現在、UiPath Helix Extractor は、米国を拠点とするテナント (GxP と政府機関向けクラウドを除く) の Document Understanding モダン プロジェクトでのみ利用できます。

以下のリージョンで パブリック エンドポイント を使用している場合は、クラシック プロジェクトとモダン プロジェクトの両方で UiPath UiPath Helix Extractor を使用できます。
  • 欧州の抽出モデルのパブリック エンドポイントは、財務諸表 を除き 、 Helix Extractor に基づいています。
  • 抽出モデルの以下のパブリック エンドポイントは、日本リージョンの Helix Extractor に基づいています。
    • Invoices China (請求書 - 中国)
    • Invoices Japan (請求書 - 日本)
    • Receipts Japan (領収書 - 日本)

前世代からの改良点

The Helix Extractor LLM では、以前のモデルに比べてさまざまな機能が強化されています。特に表の精度が向上するほか、さまざまなドキュメント レイアウトに適合するのでアノテーションの手間が減り、自動化率が向上します。

主な改良点は次のとおりです。
  • 精度の向上: Helix Extractor LLM では、請求書、領収書、発注書などの半構造化ドキュメントで精度が向上しており、F1 スコアも高くなっています。これにより、正確で一貫性のあるデータ抽出が保証されます。
  • 簡単なアノテーション: 1 つのドキュメントにつき 1 つのアノテーションで済むので、すべてのページでフィールドの各インスタンスにアノテーションを行う必要がなくなり、手動での作業が減ります。
  • 自動化の強化: Helix Extractor LLM は、信頼度レベルと適合率の相関性を高めることで自動化率を向上させると同時に、同じ適合率レベルで Action Center に送信されるドキュメントの数を減らします。

社内テストの結果、 Helix Extractor は前モデルよりも優れた性能を示しました。偽陽性率は約 15% 減少し、偽陰性率は約 17% 低下しました。

Helix Extractorの使用方法

Helix Extractor LLM は、Document Understanding モダン プロジェクトでのみ使用できます。Helix Extractorの導入後も、既存のプロジェクトのバージョンはすべて現在のモデルバージョンを使用します。これにより、進行中の運用ワークフローに中断を生じることなくシームレスに移行できます。

Helix Extractorで既存のドキュメントの種類のトレーニングを開始するには、数個のドキュメントのすべてのフィールドの確認を解除して確認します。

  1. Helix Extractorでトレーニングするドキュメントの種類を選択します。
  2. ドキュメントを選択します。
  3. ドキュメントのすべてのフィールドを選択し、[削除] を選択します。


  4. ドキュメントのすべてのフィールドにアノテーションを行い、[確認] を選択します。
    注: 選択したドキュメントの種類でトレーニングが開始されるまで、手順 34 を繰り返します。


Helix Extractorが有効化されているかどうかの確認方法

Helix Extractorでモデルをトレーニングした後、モデルのバージョンをチェックして、Helix Extractorが有効化されていることを確認します。
  1. [パブリッシュ] ページに移動し、新しいプロジェクトのバージョンを作成します。
  2. プロジェクトのバージョンの横にある 3 点リーダー メニューのアイコン を選択し、[バージョンを編集] を選択してモデルのバージョンを確認します。
    注: バージョン 24.7 以降のモデルはすべて UiPath Helix Extractor モデルです。


結果を最適化する

選択するフィールド名は、モデルのパフォーマンスに大きく影響する可能性があります。最適な結果が得られるようにするには、フィールド名に対して自然言語と適切な文法を使用します。Number (No)、Account (Acct)、Address (Addr)、Apartment (Apt) など、広く認識されている頭字語のみを使用してください。現在サポートされているのは西ヨーロッパの言語のみであるため、選択したフィールド名がこれらの言語と一致するようにしてください。内容を表していない名前 (「Column 3」など) は、ドキュメントで明確にその用語が使用されている場合を除き、使用しないでください。

らせん抽出器とレガシ モデル タイプから選択する

現在、UiPath Helix Extractor でサポートされているのはラテン文字の言語のみです。ラテン文字以外の言語でモデルをトレーニングする必要がある場合は、レガシ モデルの種類を選択します。レガシ モデルを選択した場合は、ドキュメントの種類に適したベース モデルを選択します。

Helix Extractor またはレガシ モデル タイプを選択するには、[ ドキュメントの種類マネージャー] の[設定] タブに移動し、[ モデル タイプ] ドロップダウン リストから必要なモデル タイプを選択します。



重要: 変更がデプロイされた後は、新しいプロジェクトバージョンを公開する必要があります。

UiPath® Helix Extractorの 既知の制限事項

現在、UiPath Helix Extractorには以下の制限が適用されます。
  • 抽出されるフィールドが、ドキュメント内のテキストと完全に一致する必要があります。このプロセスには、要約やその他の種類のテキスト分析は含まれません。
  • 以下のドキュメントの種類は、現在のところ Helix Extractor に基づいておらず、引き続き前世代で機能します。
    • Financial Statements (財務諸表)
    • Invoices China (請求書 - 中国)
    • Invoices (請求書) (ヘブライ語)
    • Invoices Japan (請求書 - 日本)
ヒント:現在、Helix Extractorモデルでサポートされていないドキュメントタイプには、「ドキュメントタイプを追加」(Add documentType) ドロップダウンリストに次のメッセージが表示されます。

このドキュメントの種類は、レガシ モデルを使用してトレーニングされます。



現在、UiPath Helix Extractor はラテン文字以外の言語をサポートしていません。

このページは役に立ちましたか?

接続

ヘルプ リソース サポート

学習する UiPath アカデミー

質問する UiPath フォーラム

最新情報を取得