document-understanding
2024.10
false
- 基本情報
- Examples Using the Document Understanding™ API
- ライセンス
- トラブルシューティング
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
Document Understanding API ガイド
Last updated 2024年11月11日
概要
Document UnderstandingTM APIs can be an alternative to the RPA approach. By initiating an API call, you can:
- プロジェクトに関する情報や、プロジェクト内で使用される抽出器または分類器に関する情報を確認する
- Digitization API を使用する
- 専用の API を使用してドキュメントを分類する (「ドキュメントを分類する」の例)
- 専用の API を使用してドキュメント データを抽出する (「抽出フィールドの要求を開始する」の例)
- 以前にデジタル化、分類、および/または抽出した情報を検証する
ユース ケースに応じて、非同期 API または同期 API を選択できます。
非同期 API は、次の場合に使用します。
- 5 ページを超える、サイズの大きいドキュメントを処理する必要がある場合。
- 複数の操作を同時に処理する必要がある場合。非同期 API では同時処理が可能なので、アイドル時間を回避してシステムのスループットを向上できます。つまり、ドキュメントを送信したら、応答を待たずに別のタスクに進むことができます。
- 処理が必要なデータセットが大きく、かなりの時間がかかる場合。
同期 API は、次の場合に使用します。
- 最大で 5 ページのサイズの小さいドキュメントを処理する必要がある場合。
- 要求と応答に基づいてリアルタイムに操作する必要があり、マルチタスクが必要ない場合。同期 API では、応答を待機している間は他の操作をブロックできます。
- 処理が必要なデータセットが小さい場合。
非同期 API には、次のステータスが適用されます。
- 開始前: ジョブが作成され、処理されるのを待っています。
- 実行中: ジョブが作成されて検出され、現在処理中です。
- 失敗: ジョブは完了しましたが、失敗しました。
- 成功: ジョブが完了し、成功しました。
分類および抽出 API は、同期消費および非同期消費のどちらでも利用可能です。同期消費では、複数ページのドキュメントがサポートされます (最大 5 ページ)。一方、非同期消費では、start メソッドを介して要求を送信し、ポーリングを介して結果を取得します。
Use Document Understanding APIs to access the capabilities the same way as you would via RPA. For consuming the APIs, you can use any programming/scripting language (since the calls are made using HTTP), including RPA.
You can access the APIs via Swagger: In the toolbar of the Document UnderstandingTM service, look for the Rest API dropdown, and click Framework.
機能を試す場合は、Swagger をサンドボックスとして使用します。
定義済みのモデルまたはカスタム ビルド モデルを使用するよう選択できます。カスタム ビルド モデルは、Document Understanding の使用時にユーザーが作成したモデルです。一方で、定義済みのモデルは既に使用できる状態になっており、定義済みのすぐに使えるモデルが含まれています。
注: Digitization エンドポイントの呼び出しにより受信したデータは、7 日間保持されます。この間は、受信したドキュメント ID でこの結果を利用できます。その後は、新しいデジタル化要求を送信する必要があります。
注: 非同期の Classification エンドポイントおよび Extraction エンドポイントの呼び出しにより受信したデータは、1 日間 (24 時間) 保持されます。
Depending on the operation, Document Understanding API calls use the following classes:
- デジタル化されたドキュメントのドキュメント クラスです。
- 抽出結果の [抽出結果]
- 分類結果の [分類結果]