Document Understanding - UiPath Helix Extractor 1.0 [非推奨]

document-understanding

latest

false

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

UiPath Helix Extractor 1.0 [非推奨]

警告:

UiPath Helix Extractor 1.0 は非推奨になりました。代わりに、 UiPath Helix Extractor 2.0 を使用できます。

詳しくは、 Helix Extractor 1.0 の非推奨化を発表したリリースノートと、「今後の非推奨化」セクションをご覧ください。

Helix Extractor 1.0 大規模言語モデル (LLM) は、UiPath® Document Understanding^TM で一般提供されているデータ抽出モデルです。Helix Extractor 1.0 は以前のモデルと同様に動作しますが、多種多様なドキュメントを使用してトレーニングされています。このため、一般的なドキュメントの種類を、ほとんどまたはまったくトレーニングなしに処理できます。Helix Extractor 1.0 LLM の際立った特徴はその生成アーキテクチャです。これにより、精度が大幅に向上し、抽出が簡素化されます。さらに、独自のデータセットを使用してモデルを微調整することもできます。

Helix Extractor 1.0 のアーキテクチャとトレーニングに使用される手法について詳しくは、UiPath の AI に関するブログの「 Helix Extractor 1.0 」をご覧ください。

利用可能状況

現在、UiPath Helix Extractor は、米国を拠点とするテナント (GxP および政府機関向けクラウドを除く) において Document Understanding モダンプロジェクトでのみ利用できます。

以下のリージョンでパブリックエンドポイントを使用している場合は、クラシックプロジェクトとモダンプロジェクトの両方で UiPath Helix Extractor を使用できます。

欧州の抽出モデルのパブリックエンドポイントは、財務諸表 を除き 、Helix Extractor に基づいています。
抽出モデルの以下のパブリックエンドポイントは、日本リージョンでは Helix Extractor を基盤としています。
- Invoices China (請求書 - 中国)
- Invoices Japan (請求書 - 日本)
- Receipts Japan (領収書 - 日本)

前世代からの改良点

Helix Extractor LLM では、以前のモデルに比べてさまざまな機能が強化されています。特に表の精度が向上するほか、さまざまなドキュメントレイアウトに適合するのでアノテーションの手間が減り、自動化率が向上します。

主な改良点は次のとおりです。

精度の向上: Helix Extractor LLM では、請求書、領収書、発注書などの半構造化ドキュメントで精度が向上しており、F1 スコアも高くなっています。これにより、正確で一貫性のあるデータ抽出が保証されます。
簡単なアノテーション: 1 つのドキュメントにつき 1 つのアノテーションで済むので、すべてのページでフィールドの各インスタンスにアノテーションを行う必要がなくなり、手動での作業が減ります。
自動化の強化: Helix Extractor LLM は、信頼度レベルと適合率の相関性を高めることで自動化率を向上させると同時に、同じ適合率レベルで Action Center に送信されるドキュメントの数を減らします。

社内テストの結果、Helix Extractor は前モデルよりも優れたパフォーマンスを示しました。偽陽性率は約 15% 減少し、偽陰性率は約 17% 低下しました。

Helix Extractor の使用方法

Helix Extractor LLM は、Document Understanding モダンプロジェクトでのみ使用できます。Helix Extractor の導入後も、既存のプロジェクトのバージョンはすべて現在のモデルバージョンを使用します。これにより、進行中の運用ワークフローに中断を生じることなくシームレスに移行できます。

Helix Extractor で既存のドキュメントの種類のトレーニングを開始するには、数個のドキュメントのすべてのフィールドの確認を解除して確認します。

Helix Extractor でトレーニングするドキュメントの種類を選択します。
ドキュメントを選択します。
ドキュメントのすべてのフィールドを選択し、[削除] を選択します。
ドキュメントのすべてのフィールドにアノテーションを行い、[確認] を選択します。

注:
選択したドキュメントの種類でトレーニングが開始されるまで、手順 3 と 4 を繰り返します。

Helix Extractor が有効化されているかどうかの確認方法

モデルを Helix Extractor でトレーニングした後、モデルのバージョンをチェックして、Helix Extractor が有効化されていることを確認します。

[パブリッシュ] ページに移動し、新しいプロジェクトのバージョンを作成します。
プロジェクトのバージョンの横にある 3 点リーダーメニューのアイコン ⋮ を選択し、[バージョンを編集] を選択してモデルのバージョンを確認します。

注:
バージョン 24.7 以降のモデルはすべて UiPath Helix Extractor モデルです。

結果を最適化する

選択するフィールド名は、モデルのパフォーマンスに大きく影響する可能性があります。最適な結果が得られるようにするには、フィールド名に対して自然言語と適切な文法を使用します。Number (No)、Account (Acct)、Address (Addr)、Apartment (Apt) など、広く認識されている頭字語のみを使用してください。現在サポートされているのは西ヨーロッパの言語のみであるため、選択したフィールド名がこれらの言語と一致するようにしてください。内容を表していない名前 (「Column 3」など) は、ドキュメントで明確にその用語が使用されている場合を除き、使用しないでください。

Helix Extractor とレガシモデルの種類から選択する

現在、UiPath Helix Extractor でサポートされているのはラテン文字の言語のみです。ラテン文字以外の言語でモデルをトレーニングする必要がある場合は、レガシモデルの種類を選択します。レガシモデルを選択した場合は、ドキュメントの種類に適したベースモデルを選択します。

Helix Extractorまたはレガシモデルタイプを選択するには、[ドキュメントの種類マネージャー] の [設定] タブに移動し、[モデルタイプ] ドロップダウンリストから必要なモデルタイプを選択します。

重要:

変更をデプロイした後、新しいプロジェクトバージョンをパブリッシュする必要があります。

UiPath® Helix Extractor の既知の制限事項

現在、UiPath Helix Extractor には以下の制限が適用されます。

抽出されるフィールドが、ドキュメント内のテキストと完全に一致する必要があります。このプロセスには、要約やその他の種類のテキスト分析は含まれません。
以下のドキュメントの種類は、現在のところ Helix Extractor に基づいておらず、引き続き前世代で機能します。
- Financial Statements (財務諸表)
- Invoices China (請求書 - 中国)
- Invoices (請求書) (ヘブライ語)
- Invoices Japan (請求書 - 日本)

ヒント:

現在Helix Extractorモデルでサポートされていないドキュメントタイプでは、[ ドキュメントの種類を追加 ] ドロップダウンリストに次のメッセージが表示されます。このドキュメントの種類は、レガシモデルを使用してトレーニングされます。

現在、UiPath Helix Extractor ではラテン文字以外の言語はサポートされていません。

利用可能状況
前世代からの改良点
Helix Extractor の使用方法
Helix Extractor が有効化されているかどうかの確認方法
結果を最適化する
Helix Extractor とレガシモデルの種類から選択する
UiPath® Helix Extractor の既知の制限事項

このページは役に立ちましたか?

前へUiPath Helix Extractor 2.0

次へインフラストラクチャ

利用可能状況​

前世代からの改良点​

Helix Extractor の使用方法​

Helix Extractor が有効化されているかどうかの確認方法​

結果を最適化する​

Helix Extractor とレガシ モデルの種類から選択する​

UiPath® Helix Extractor の既知の制限事項​