- 概要
- モデルの構築
- モデルの検証
- モデルのデプロイ
- API
- よくある質問
- よくある質問

非構造化ドキュメントと複雑なドキュメント ユーザー ガイド
顧客やパートナーが IXP の非構造化ドキュメントと複雑なドキュメント機能にアクセスするにはどうすればよいですか?
非構造化ドキュメントと複雑なドキュメント機能は現在プレビュー プログラムで提供されているため、顧客やパートナーは関心のある事柄を Insider Portal で登録することができます。UiPath は定期的に登録を確認して顧客やパートナーを選定し、プレビュー プログラムへの参加を促す通知をお送りしています。ユース ケースについて可能な限り詳細に入力するようにしてください。
この機能はいつ正式に一般提供 (GA) になりますか?
非構造化ドキュメントと複雑なドキュメント機能の公式リリースの予定日は 2025 年 7 月下旬です。選定された顧客は、プレビュー期間の残りの期間、管理された一般提供 (GA) に参加できます。管理された一般提供 (GA) のユース ケースはすべて、製品チームによる承認を受け、そのそれぞれのアカウント チームによってサポートされる必要があります。
この機能は Community ユーザーも利用できますか?
はい、Community ユーザー (制限された機能にのみアクセス可能) はこの機能を利用できます。すべてのテナントまたはプロジェクトには、事前定義された設計時および実行時の制限が適用されます。詳しくは、「設計時」セクションと「実行時」セクションをご覧ください。
IXP にはどのようなデプロイ オプションがありますか?この機能はオンプレミスで利用できますか?
現在、IXP の Communications Mining 機能、および非構造化ドキュメントと複雑なドキュメント機能は、UiPath® Automation Cloud™ でのみ利用可能です。
Document Understanding は、Automation Cloud、Automation Suite、およびスタンドアロンのデプロイで利用可能です。Document Understanding のデプロイ オプションについて詳しくは、「デプロイの種類を選択する」をご覧ください。
この機能はすべてのリージョンで利用できますか?
現在、「非構造化ドキュメントと複雑なドキュメント」機能は、米国と欧州のテナントで一般提供されており、カナダ、日本、オーストラリア リージョンではプライベート プレビューとして利用可能です。
この機能ではどの言語がサポートされていますか?
ユーザーは、IXP 内で選択したモデルでサポートされるすべての言語でドキュメントをアップロードし、モデルを構築できます。
この機能ではどのようなファイル形式がサポートされていますか?
現在、この機能でサポートされているファイル形式は、PNG、JPG または JPEG、PDF、TIF または TIFF です。
IXP で使用されるのは特化型 AI と生成 AI のどちらですか?
Communications Mining では、特化型 AI と生成 AI の機能が使用されます。必要に応じて、すべての生成 AI 機能を無効化できます。
Document Understanding では、特化型 AI と生成 AI の機能が使用されます。必要に応じて、すべての生成 AI 機能を無効化できます。
非構造化ドキュメントと複雑なドキュメントの生成 AI による抽出では、サードパーティの LLM を介して生成 AI が使用されます。この機能は生成 AI なしでは使用できません。
Are CommPath and DocPath available in IXP?
CommPath は、Communications Mining で生成 AI による抽出機能を使用する場合に利用可能です。
DocPath is available in Document Understanding, only in the Modern experience. It is not available in the Document Understanding Classic experience.
どちらも、非構造化ドキュメントと複雑なドキュメントの生成 AI による抽出機能では利用できません。
IXP は AI Trust Layer (AITL) を経由しますか?
Yes, all IXP capabilities that use third-party LLMs go through the UiPath AITL. CommPath and DocPath are the proprietary models of UiPath and do not go through the AITL.
この機能ではどの LLM が使用されますか?
「非構造化ドキュメントと複雑なドキュメント」機能では GPT-4o vision モデルと Gemini モデルが利用できます。Gemini モデルは、表形式データのインテリジェントな前処理の機能として利用できます。
この機能では独自のサブスクリプションを使用できますか?
現時点ではサポートされていませんが、今後のリリースでは独自のサブスクリプションがサポートされる予定です。
ユース ケースを Document Understanding のクラシック エクスペリエンスから IXP の非構造化ドキュメントと複雑なドキュメント機能に移行することはできますか?
今のところできません。ただし、インポートおよびエクスポート機能は今後のリリースで利用可能になる予定です。
ユース ケースを Document Understanding のモダン エクスペリエンスから IXP の非構造化ドキュメントと複雑なドキュメント機能に移行することはできますか?
今のところできません。ただし、インポートおよびエクスポート機能は今後のリリースで利用可能になる予定です。
ユース ケースを Document Understanding の「生成 AI 抽出器」系アクティビティから IXP の非構造化ドキュメントと複雑なドキュメント機能に移行することはできますか?
今のところできません。ただし、インポートおよびエクスポート機能は今後のリリースで利用可能になる予定です。
この機能に設計時の制限はありますか?
以下のような設計時の制限事項があります。
- フィールド グループあたりのフィールド数: 最大 32 フィールド。
- フィールド名あたりの文字数: 最大 128 文字。
- プロンプトの指示あたりの文字数: 最大 2048 文字。これはすべてのプロンプトに適用されます。全体的な指示、フィールド グループの指示、フィールドの指示、フィールドの種類の指示もその対象です。
ドキュメント機能で一般フィールドを作成できますか?
いいえ、IXP には一般フィールドの概念はありません。すべてのフィールドがフィールド グループに属している必要があります。各フィールド グループは 1 つの独立した表に相当し、フィールドは表の列を意味します。ただし、ドキュメントの種類に相当する親レベルのフィールド グループを定義し、このフィールド グループの下に一般フィールドを表として追加できます。
IXP の非構造化ドキュメントと複雑なドキュメントのモデルでは、ラベル付けやアノテーションによってパフォーマンスが向上しますか?
いいえ、このモデルはまだユーザーのアノテーションから直接学習しません。現在、モデルのパフォーマンスを向上させるには、プロンプトの指示またはモデルの設定を変更します。UiPath では、コンテキスト内学習、指示へのフィードバックの改良、微調整可能なモデルなど、さまざまな解決策を調査しているところです。
モデルのパフォーマンスが向上しないのにドキュメントのアノテーションを行う必要があるのはなぜですか?
それでもなお、ドキュメントを検証してアノテーションを行い、モデルのパフォーマンス評価のグラウンド トゥルースを確立することは重要です。パフォーマンス評価は、[評価] ページの組み込みのパフォーマンス メトリックにキャプチャされます。
プロンプトの指示をテストするには、ドキュメントをいくつアップロードする必要がありますか?
ドキュメントの代表的なサンプルをアップロードし、考えられるバリエーションをすべてカバーする必要があります。これは、少なくとも 20 個から 30 個の異なるドキュメントである必要があります。2 個から 3 個のドキュメントで初期の予測を確認し、プロンプトの指示を変更する必要があるかどうかを判断した上で、テスト サンプルを 10 個のドキュメント、20 個、30 個、X 個と徐々に増やしていくことをお勧めします。これは反復的なプロセスになります。
信頼できるパフォーマンス メトリックを取得するには、いくつのドキュメントのアノテーションを行う必要がありますか?
各フィールドについて少なくとも 10 個のドキュメントまたは 10 個の例、あるいはその両方を検証して、モデルが有意義な検証の統計情報を提供できるようにすることをお勧めします。これはアノテーションの最小数であり、特定のユース ケースの要件によって異なります。
非構造化ドキュメントと複雑なドキュメントのモデルは、ロボットやスタンドアロンの Document Understanding API を介して使用できますか?
非構造化ドキュメント モデルや複雑なドキュメントのモデルは、ロボット、およびスタンドアロンの Document Understanding Automation Cloud API の両方を介して使用できます。
非構造化ドキュメントと複雑なドキュメント機能の出力を使用するにはどうすればよいですか?
モデルの出力は、API、Document Understanding アクティビティ、または Intelligent OCR アクティビティを介して使用できます。以下の点をご確認ください。
- v6.23.2-preview 以降の IOCR パッケージをインストールし、[Document Understanding プロジェクト抽出器] アクティビティを選択する
- v2.13.2-preview 以降の Document Understanding パッケージをインストールし、[ドキュメント データを抽出] アクティビティを選択する
IXP の非構造化ドキュメントと複雑なドキュメント機能では信頼度スコアが提供されますか?また、スコアはどのように計算されますか?
はい、モデルの応答と Action Center (実行時) では信頼度スコアが提供されます。ただし、IXP のユーザー インターフェイス (設計時) では提供されません。LLM から返されるトークンの確率を使用して、フィールド レベルと抽出レベルの信頼度を推定します。
非構造化ドキュメントと複雑なドキュメント モデルの出力をハイブリッド デプロイ (オンプレミスの Orchestrator や、Automation Suite とクラウドの IXP モデル) で使用できますか?
はい、外部アプリを介してサポートされています。詳しくは、「OAuth アプリ」をご覧ください。
IXP の非構造化ドキュメントと複雑なドキュメント モデルの出力を別の組織やテナント (運用、開発、または UAT) から利用できますか?
はい、外部アプリを介してサポートされています。詳しくは、「OAuth アプリ」をご覧ください。
検証ステーションは、非構造化ドキュメントおよび複雑なドキュメントの機能で動作しますか?
はい、Document Understanding のモダン プロジェクトまたはクラシック プロジェクトの場合と同じように機能します。ただし、すべての抽出データを表として検証する必要があります。
非構造化ドキュメントと複雑なドキュメントのモデルは、Action Center の HITL 検証に基づいて学習しますか?
いいえ、現在、Action Center と、非構造化ドキュメントと複雑なドキュメント モデルとの間にフィードバック ループはありません。今後のリリースで微調整可能なモデルと併せてサポートされる予定です。
実際には、IXP はドキュメントあたり最大 1,200 件のフィールド値を安定して抽出できます。
つまり、ドキュメントで 1,200 件を超えるフィールド値を抽出する必要がある場合、モデルがトークンの制限に達する可能性があります。これは、ドキュメントがこのセクションに記載されているページ制限内に十分に収まっている場合でも発生する可能性があります。UiPath では、今後のリリースでより大きいフィールド値の上限をサポートできるよう研究開発を進めています。
トークンの上限を超えた場合、ページ数に関係なく、予測が不完全または空になる可能性があります。たとえば、80 ページのドキュメントで 1,400 件のフィールド値が抽出された場合、トークンの上限に関する警告がユーザー インターフェイスに表示されることがあります。実行時にトークンの上限を超えた場合は、API 応答は発生の信頼度と抽出結果の信頼度の値として 0 を返して、上限を超えたことを示します。
ページの上限を超えた場合、以下のように、指定された上限に収まるページのみが処理されます。これらの動作は両方が Gemini と GPT-4o の両方に適用されます。
以下のような実行時の制限事項があります。
- ドキュメントあたりのページ数:
- Gemini の場合、最大 500 ページ。
- GPT-4o の場合、50 ページ。プライベート プレビュー機能である繰り返し呼び出しを使用する場合は最大 150 ページ。
- トークンの制限 - 長い表など、抽出件数が 200 を超えるデータ量の多いドキュメントは、トークンの制限に達する可能性があります。GPT4-o が制限に達した場合は、プライベート プレビュー機能である繰り返し呼び出しを使用してフィールドの出力を増やすことができます。一方、Gemini では既定で出力トークンの制限が高いため、両方のモデルで同等の量のフィールド値を返すことができます (Gemini は 1 回の呼び出しで返し、GPT は複数回の呼び出しで返します)。
この機能では監視ツールが提供されていますか?これらは Document Understanding のモダン プロジェクトとは異なりますか?Insights への依存関係はありますか?
現在のところ、非構造化ドキュメントと複雑なドキュメント機能では、モダン プロジェクトの [監視] ページのような監視機能は提供されていません。監視機能の詳細については、今後のリリースでお知らせする予定です。
非構造化ドキュメントと複雑なドキュメント機能のプロジェクトでの AI ユニットの消費を監視できますか?
現在、プロジェクトごとの消費状況の追跡は利用できません。完全な連携が済むと、消費状況が [AI ユニットの消費] ダッシュボードと、[非構造化ドキュメントと複雑なドキュメント] ダッシュボードに分かれて表示される可能性があります。
パフォーマンスの低下 (データ ドリフト、F1 スコアの低下など) を自動検出できますか?
現在のところ、モデルのパフォーマンスに関する通知やアラートは提供していません。
ユーザーはどのくらいの頻度でモデルやプロンプトの指示を更新する必要がありますか?
各ユース ケースによって異なりますが、抽出データのパフォーマンスが低い場合は常にプロンプトの指示を調整することをお勧めします。