- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- 詳細
- Automation Cloud と Test Cloud のパブリック エンドポイント
- Automation Cloud および Test Cloud (公共部門向け) のパブリック エンドポイント
- 1040 (米国の個人所得税修正申告書) - ドキュメントの種類
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ドキュメントの種類
- (米国の個人所得税申告書のスケジュール D) - ドキュメントの種類
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ドキュメントの種類
- 1040x (米国の個人所得税修正申告書) - ドキュメントの種類
- 3949a (米国の課税・徴収漏れに関する情報提供フォーム) - ドキュメントの種類
- 4506T (米国の納税申告証明依頼書) - ドキュメントの種類
- 709 (米国の贈与税申告書) - ドキュメントの種類
- 941× (米国の雇用主による四半期連邦税修正申告書) - ドキュメントの種類
- 9465 (米国の分割納付申請書) - ドキュメントの種類
- ACORD125 (企業向け保険契約申込書) - ドキュメントの種類
- ACORD126 (企業総合賠償責任保険) - ドキュメントの種類
- ACORD131 (アンブレラ/エクセス保険) - ドキュメントの種類
- ACORD140 (商業保険申込書の財物補償条項) - ドキュメントの種類
- ACORD25 (賠償責任保険証明書) - ドキュメントの種類
- Bank Statements (銀行預金残高証明書) - ドキュメントの種類
- BillsOfLading (船荷証券) - ドキュメントの種類
- Certificate of Incorporation (会社存在証明書) - ドキュメントの種類
- Certificate of Origin (原産地証明書) - ドキュメントの種類
- Checks (小切手) - ドキュメントの種類
- Children's Product Certificate (子供向け製品証明書) - ドキュメントの種類
- CMS 1500 (米国の医療保険請求フォーム) - ドキュメントの種類
- EU Declaration of Conformity (EU 適合宣言書) - ドキュメントの種類
- Financial Statements (財務諸表) - ドキュメントの種類
- FM1003 (米国の統一住宅ローン申請書) - ドキュメントの種類
- I9 (米国の就労資格証明書) - ドキュメントの種類
- ID Cards (ID カード) - ドキュメントの種類
- Invoices (請求書) - ドキュメントの種類
- Invoices2 (請求書 2) - ドキュメントの種類
- InvoicesAustralia (請求書 - オーストラリア) - ドキュメントの種類
- Invoices China (請求書 - 中国) - ドキュメントの種類
- Invoices Hebrew (請求書 - ヘブライ語) - ドキュメントの種類
- Invoices India (請求書 - インド) - ドキュメントの種類
- Invoices Japan (請求書 - 日本) - ドキュメントの種類
- Invoices Shipping (船積送り状) - ドキュメントの種類
- Packing Lists (梱包明細書) - ドキュメントの種類
- Pay slips (給与明細) - ドキュメントの種類
- Passports (パスポート) - ドキュメントの種類
- Purchase Orders (発注書) - ドキュメントの種類
- Receipts (領収書) - ドキュメントの種類
- Receipts2 (領収書 2) - ドキュメントの種類
- Receipts Japan (領収書 - 日本) - ドキュメントの種類
- Remittance Advices (送金通知書) - ドキュメントの種類
- UB-04 (健康保険請求フォーム) - ドキュメントの種類
- US Mortgage Closing Disclosures (米国のローン契約締結開示説明書) - ドキュメントの種類
- Utility Bills (公共料金の請求書) - ドキュメントの種類
- Vehicle Titles (自動車の権利書) - ドキュメントの種類
- W2 (米国の源泉徴収票) - ドキュメントの種類
- W9 (米国の納税申告書) - ドキュメントの種類
- サポートされている言語
- Insights のダッシュボード
- データおよびセキュリティ
- ログ
- ライセンス
- 使い方
- トラブルシューティング
Document Understanding ガイド
Helix Extractor 1.0 大規模言語モデル (LLM) は、UiPath® Document UnderstandingTM で一般提供されているデータ抽出モデルです。Helix Extractor 1.0 は以前のモデルと同様に動作しますが、多種多様なドキュメントを使用してトレーニングされています。このため、一般的なドキュメントの種類を、ほとんどまたはまったくトレーニングなしに処理できます。Helix Extractor 1.0 LLM の際立った特徴はその生成アーキテクチャです。これにより、精度が大幅に向上し、抽出が簡素化されます。さらに、独自のデータセットを使用してモデルを微調整することもできます。
Helix Extractor 1.0 のアーキテクチャとトレーニングに使用される手法について詳しくは、UiPath の AI に関するブログの「 Helix Extractor 1.0 」をご覧ください。
UiPath Helix Extractor 2.0 が、欧州および米国のテナントでパブリック プレビューとして公開されました。詳しくは、「 UiPath Helix Extractor 2.0 」のページをご覧ください。
利用可能状況
現在、UiPath Helix Extractor は、米国を拠点とするテナント (GxP および政府機関向けクラウドを除く) において Document Understanding モダン プロジェクトでのみ利用できます。
以下のリージョンで パブリック エンドポイント を使用している場合は、クラシック プロジェクトとモダン プロジェクトの両方で UiPath Helix Extractor を使用できます。
- 欧州の抽出モデルのパブリック エンドポイントは、財務諸表 を除き 、Helix Extractor に基づいています。
- 抽出モデルの以下のパブリック エンドポイントは、日本リージョンでは Helix Extractor を基盤としています。
- Invoices China (請求書 - 中国)
- Invoices Japan (請求書 - 日本)
- Receipts Japan (領収書 - 日本)
前世代からの改良点
Helix Extractor LLM では、以前のモデルに比べてさまざまな機能が強化されています。特に表の精度が向上するほか、さまざまなドキュメント レイアウトに適合するのでアノテーションの手間が減り、自動化率が向上します。
主な改良点は次のとおりです。
- 精度の向上: Helix Extractor LLM では、請求書、領収書、発注書などの半構造化ドキュメントで精度が向上しており、F1 スコアも高くなっています。これにより、正確で一貫性のあるデータ抽出が保証されます。
- 簡単なアノテーション: 1 つのドキュメントにつき 1 つのアノテーションで済むので、すべてのページでフィールドの各インスタンスにアノテーションを行う必要がなくなり、手動での作業が減ります。
- 自動化の強化: Helix Extractor LLM は、信頼度レベルと適合率の相関性を高めることで自動化率を向上させると同時に、同じ適合率レベルで Action Center に送信されるドキュメントの数を減らします。
社内テストの結果、Helix Extractor は前モデルよりも優れたパフォーマンスを示しました。偽陽性率は約 15% 減少し、偽陰性率は約 17% 低下しました。
Helix Extractor の使用方法
Helix Extractor LLM は、Document Understanding モダン プロジェクトでのみ使用できます。Helix Extractor の導入後も、既存のプロジェクトのバージョンはすべて現在のモデル バージョンを使用します。これにより、進行中の運用ワークフローに中断を生じることなくシームレスに移行できます。
Helix Extractor で既存のドキュメントの種類のトレーニングを開始するには、数個のドキュメントのすべてのフィールドの確認を解除して確認します。
-
Helix Extractor でトレーニングするドキュメントの種類を選択します。
-
ドキュメントを選択します。
-
ドキュメントのすべてのフィールドを選択し、[削除] を選択します。
-
ドキュメントのすべてのフィールドにアノテーションを行い、[確認] を選択します。
注:選択したドキュメントの種類でトレーニングが開始されるまで、手順 3 と 4 を繰り返します。
Helix Extractor が有効化されているかどうかの確認方法
モデルを Helix Extractor でトレーニングした後、モデルのバージョンをチェックして、Helix Extractor が有効化されていることを確認します。
-
[パブリッシュ] ページに移動し、新しいプロジェクトのバージョンを作成します。
-
プロジェクトのバージョンの横にある 3 点リーダー メニューのアイコン ⋮ を選択し、[バージョンを編集] を選択してモデルのバージョンを確認します。
注:バージョン 24.7 以降のモデルはすべて UiPath Helix Extractor モデルです。
結果を最適化する
選択するフィールド名は、モデルのパフォーマンスに大きく影響する可能性があります。最適な結果が得られるようにするには、フィールド名に対して自然言語と適切な文法を使用します。Number (No)、Account (Acct)、Address (Addr)、Apartment (Apt) など、広く認識されている頭字語のみを使用してください。現在サポートされているのは西ヨーロッパの言語のみであるため、選択したフィールド名がこれらの言語と一致するようにしてください。内容を表していない名前 (「Column 3」など) は、ドキュメントで明確にその用語が使用されている場合を除き、使用しないでください。
Helix Extractor とレガシ モデルの種類から選択する
現在、UiPath Helix Extractor でサポートされているのはラテン文字の言語のみです。ラテン文字以外の言語でモデルをトレーニングする必要がある場合は、レガシ モデルの種類を選択します。レガシ モデルを選択した場合は、ドキュメントの種類に適したベース モデルを選択します。
Helix Extractorまたはレガシ モデル タイプを選択するには、[ドキュメントの種類マネージャー] の [設定] タブに移動し、[モデル タイプ] ドロップダウン リストから必要なモデル タイプを選択します。
変更をデプロイした後、新しいプロジェクト バージョンをパブリッシュする必要があります。
UiPath® Helix Extractor の既知の制限事項
現在、UiPath Helix Extractor には以下の制限が適用されます。
- 抽出されるフィールドが、ドキュメント内のテキストと完全に一致する必要があります。このプロセスには、要約やその他の種類のテキスト分析は含まれません。
- 以下のドキュメントの種類は、現在のところ Helix Extractor に基づいておらず、引き続き前世代で機能します。
- Financial Statements (財務諸表)
- Invoices China (請求書 - 中国)
- Invoices (請求書) (ヘブライ語)
- Invoices Japan (請求書 - 日本)
現在Helix Extractorモデルでサポートされていないドキュメント タイプでは、[ ドキュメントの種類を追加 ] ドロップダウン リストに次のメッセージが表示されます。 このドキュメントの種類は、レガシ モデルを使用してトレーニングされます。
現在、UiPath Helix Extractor ではラテン文字以外の言語はサポートされていません。