document-understanding
2024.10
true
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
Document Understanding API ガイド
Last updated 2024年11月11日
概要
Document UnderstandingTM API は、RPA によるアプローチの代替手段として使用できます。API 呼び出しを開始すると、以下の操作を行うことができます。
- プロジェクトに関する情報や、プロジェクト内で使用される抽出器または分類器に関する情報を確認する
- Digitization API を使用する
- 専用の API を使用してドキュメントを分類する (「ドキュメントを分類する」の例)
- 専用の API を使用してドキュメント データを抽出する (「抽出フィールドの要求を開始する」の例)
- 以前にデジタル化、分類、および/または抽出した情報を検証する
ユース ケースに応じて、非同期 API または同期 API を選択できます。
非同期 API は、次の場合に使用します。
- 5 ページを超える、サイズの大きいドキュメントを処理する必要がある場合。
- 複数の操作を同時に処理する必要がある場合。非同期 API では同時処理が可能なので、アイドル時間を回避してシステムのスループットを向上できます。つまり、ドキュメントを送信したら、応答を待たずに別のタスクに進むことができます。
- 処理が必要なデータセットが大きく、かなりの時間がかかる場合。
同期 API は、次の場合に使用します。
- 最大で 5 ページのサイズの小さいドキュメントを処理する必要がある場合。
- 要求と応答に基づいてリアルタイムに操作する必要があり、マルチタスクが必要ない場合。同期 API では、応答を待機している間は他の操作をブロックできます。
- 処理が必要なデータセットが小さい場合。
非同期 API には、次のステータスが適用されます。
- 開始前: ジョブが作成され、処理されるのを待っています。
- 実行中: ジョブが作成されて検出され、現在処理中です。
- 失敗: ジョブは完了しましたが、失敗しました。
- 成功: ジョブが完了し、成功しました。
分類および抽出 API は、同期消費および非同期消費のどちらでも利用可能です。同期消費では、複数ページのドキュメントがサポートされます (最大 5 ページ)。一方、非同期消費では、start メソッドを介して要求を送信し、ポーリングを介して結果を取得します。
Document Understanding API を使用して、RPA の場合と同じ方法で機能にアクセスします。API の使用には、RPA などの任意のプログラミング/スクリプト言語を使用できます (呼び出しは HTTP を使用して実行するため)。
API には Swagger を介してアクセスできます。Document UnderstandingTM サービスのツールバーで、[Rest API] ドロップダウンの [Framework] をクリックします。
機能を試す場合は、Swagger をサンドボックスとして使用します。
定義済みのモデルまたはカスタム ビルド モデルを使用するよう選択できます。カスタム ビルド モデルは、Document Understanding の使用時にユーザーが作成したモデルです。一方で、定義済みのモデルは既に使用できる状態になっており、定義済みのすぐに使えるモデルが含まれています。
注: Digitization エンドポイントの呼び出しにより受信したデータは、7 日間保持されます。この間は、受信したドキュメント ID でこの結果を利用できます。その後は、新しいデジタル化要求を送信する必要があります。
注: 非同期の Classification エンドポイントおよび Extraction エンドポイントの呼び出しにより受信したデータは、1 日間 (24 時間) 保持されます。
操作に応じて、Document Understanding API 呼び出しでは次のクラスが使用されます。
- デジタル化されたドキュメントの場合、Document クラス
- 抽出結果の場合、[抽出結果]
- 分類結果の場合、分類結果