- 概要
- Document Processing Contracts
- リリース ノート
- Document Processing Contracts について
- Box クラス
- IPersistedActivity インターフェイス
- PrettyBoxConverter クラス
- IClassifierActivity インターフェイス
- IClassifierCapabilitiesProvider インターフェイス
- ClassifierDocumentType クラス
- ClassifierResult クラス
- ClassifierCodeActivity クラス
- ClassifierNativeActivity クラス
- ClassifierAsyncCodeActivity クラス
- ClassifierDocumentTypeCapability クラス
- ExtractorAsyncCodeActivity クラス
- ExtractorCodeActivity クラス
- ExtractorDocumentType クラス
- ExtractorDocumentTypeCapabilities クラス
- ExtractorFieldCapability クラス
- ExtractorNativeActivity クラス
- ExtractorResult クラス
- ICapabilitiesProvider インターフェイス
- IExtractorActivity インターフェイス
- ExtractorPayload クラス
- DocumentActionPriority 列挙型
- DocumentActionData クラス
- DocumentActionStatus 列挙型
- DocumentActionType 列挙型
- DocumentClassificationActionData クラス
- DocumentValidationActionData クラス
- UserData クラス
- Document クラス
- DocumentSplittingResult クラス
- DomExtensions クラス
- Page クラス
- PageSection クラス
- Polygon クラス
- PolygonConverter クラス
- Metadata クラス
- WordGroup クラス
- Word クラス
- ProcessingSource 列挙型
- ResultsTableCell クラス
- ResultsTableValue クラス
- ResultsTableColumnInfo クラス
- ResultsTable クラス
- Rotation 列挙型
- SectionType 列挙型
- WordGroupType 列挙型
- IDocumentTextProjection インターフェイス
- ClassificationResult クラス
- ExtractionResult クラス
- ResultsDocument クラス
- ResultsDocumentBounds クラス
- ResultsDataPoint クラス
- ResultsValue クラス
- ResultsContentReference クラス
- ResultsValueTokens クラス
- ResultsDerivedField クラス
- ResultsDataSource 列挙型
- ResultConstants クラス
- SimpleFieldValue クラス
- TableFieldValue クラス
- DocumentGroup クラス
- DocumentTaxonomy クラス
- DocumentType クラス
- Field クラス
- FieldType 列挙型
- LanguageInfo クラス
- MetadataEntry クラス
- TextType 列挙型
- TypeField クラス
- ITrackingActivity インターフェイス
- ITrainableActivity インターフェイス
- ITrainableClassifierActivity インターフェイス
- ITrainableExtractorActivity インターフェイス
- TrainableClassifierAsyncCodeActivity クラス
- TrainableClassifierCodeActivity クラス
- TrainableClassifierNativeActivity クラス
- TrainableExtractorAsyncCodeActivity クラス
- TrainableExtractorCodeActivity クラス
- TrainableExtractorNativeActivity クラス
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR ローカル サーバー
- Document Understanding
- IntelligentOCR
- リリース ノート
- IntelligentOCR アクティビティ パッケージについて
- プロジェクトの対応 OS
- 認証を構成する
- タクソノミーを読み込み
- ドキュメントをデジタル化
- ドキュメント分類スコープ
- キーワード ベースの分類器
- Document Understanding プロジェクト分類器
- インテリジェント キーワード分類器
- ドキュメント分類アクションを作成
- ドキュメント分類アクション完了まで待機し再開
- 分類器トレーニング スコープ
- キーワード ベースの分類器トレーナー
- インテリジェント キーワード分類器トレーナー
- データ抽出スコープ
- Document Understanding プロジェクト抽出器
- 正規表現ベースの抽出器
- フォーム抽出器
- インテリジェント フォーム抽出器
- 検証ステーションを提示
- ドキュメント検証アクションを作成
- ドキュメント検証アクション完了まで待機し再開
- 抽出器トレーニング スコープ
- 抽出結果をエクスポート
- ML サービス
- OCR
- OCR Contracts
- リリース ノート
- OCR コントラクトについて
- プロジェクトの対応 OS
- IOCRActivity インターフェイス
- OCRAsyncCodeActivity クラス
- OCRCodeActivity クラス
- OCRNativeActivity クラス
- Character クラス
- OCRResult クラス
- Word クラス
- FontStyles 列挙型
- OCRRotation 列挙型
- OCRCapabilities クラス
- OCRScrapeBase クラス
- OCRScrapeFactory クラス
- ScrapeControlBase クラス
- ScrapeEngineUsages 列挙型
- ScrapeEngineBase
- ScrapeEngineFactory クラス
- ScrapeEngineProvider クラス
- OmniPage
- PDF
- [リストから削除済] ABBYY
- [リストから削除済] ABBYY Embedded
Document Understanding アクティビティ
生成抽出器 - 効果的な実践
- 安定性を向上させるために、プロンプトの数は最大 50 に制限されています。
- 応答 (抽出結果) は [完了]とも呼ばれ、700 単語という制限があります。これは 700 単語に制限されています。つまり、1 つのプロンプトあたりの抽出結果が 700 単語を超えることはできません。抽出要件がこの制限を超える場合は、ドキュメントを複数のページに分割して個別に処理し、後で結果を結合できます。
生成 AI のプロンプトでする質問を、4 人から 5 人の人間に聞くところを想像してみてください。それぞれ少しずつ違う回答をするのが想像できる場合、その質問は曖昧すぎるため、より具体的な質問に書き換える必要があります。
たとえば、「患者のすべての個人情報をコンマ区切りのキーと値のペアとして抽出してください」などの一般的な要求をプロンプトで指示した場合は、モデルが自動的に特定の情報を見つけてくれることが期待されます。
- ドキュメント内の個人情報が記載されている場所。
- 個人情報とそうでないもの (その境界は、非常にあいまいです)。
- ユーザーが「キー」として取得することを期待しているもの、各キーの値、およびユーザーが期待する正確な形式。
- 括弧を使用する必要があるか。それとも、それぞれのキーと値のペアを別々の行に示すだけでよいか。
- 患者の名を抽出してください
- 患者の姓を抽出してください
- 郵便番号、都道府県、市区町村を含む患者の住所を抽出してください
- 患者の誕生日を抽出してください
return date in yyyy-mm-dd format
(日付を yyyy-mm-dd 形式で返してください。)」のように、日付の形式を指定します。年のみが必要な場合は、「return the year, as a four digit number
(年を 4 桁の数字で返してください。)」と指定します。
return numbers which appear in parentheses as negative
(括弧内に表示される数字を負の数として返してください。)」または「return number in ##,###.## format
(数値を ##,###.## 形式で返してください。)」と指定して小数点区切り文字と桁区切り文字を標準化し、ダウンストリーム処理しやすくします。
ダウンストリーム処理が簡略化されるだけでなく、応答精度も向上します。
What is the termination date of this contract?
(この契約の終了日はいつですか?)」と質問する代わりに「First find termination section of contract, then determine termination date, then return date in yyyy-mm-dd format.
(はじめに、契約の終了の条項を探してください。その後、終了日を特定し、終了日の日付を yyyy-mm-dd 形式で返してください。)」と指示します。Execute the following program:
1: Find termination section or clause
2: Find termination date
3: Return termination date in yyyy-mm-dd format
4: Stop
Execute the following program:
1: Find termination section or clause
2: Find termination date
3: Return termination date in yyyy-mm-dd format
4: Stop
JSON または XML 構文を使用するなどしてプログラミング スタイルで指示を記述することにより、生成モデルがプログラミング スキルを使用するようにします。これにより、指示実行時の精度が向上します。
加算、乗算、減算、比較、およびその他の計算操作を指示しないでください。間違いを起こさない単純なロボット ワークフローに比べて処理速度が非常に遅く、コストがかかるだけでなく、基本的な間違いをするからです。
上記と同じ理由で、複雑な if-then-else のロジックの実行を指示しないでください。この種類の操作は、ロボット ワークフローの方がはるかに正確で効率的です。
現在、生成 AI 抽出器は列フィールドをサポートしていません。通常の質問で小さめのテーブルを抽出してその出力を解析できる場合もありますが、それは回避策にすぎず制限が伴うことに注意してください。汎用的な、任意の大きなテーブルを抽出するよう設計されておらず、そうした用途は推奨もされていません。
生成 AI 抽出器にとって、表からデータを抽出するのはかなり難しいタスクです。生成 AI テクノロジはテキストの線形文字列を使用し、画像内の視覚的な 2 次元情報は理解しないからです。生成 AI 抽出器では、タクソノミー マネージャーで定義されている表フィールドを抽出することはできませんが、ドキュメントからテキストと表を抽出することはできます。
- 各列のデータを個別に取得するよう生成 AI 抽出器に指示し、返されたデータを使用して、自分でワークフローで行を組み立てます。この場合、「
Please return the Unit Prices on this invoice, as a list from top to bottom, as a list in the format [<UnitPrice1>, <UnitPrice2>,…]
(この請求書に記載されている明細項目を JSON オブジェクトの JSON 配列として返してください。各オブジェクトは次の形式で返してください: {“説明”:<説明>, “数量”:<数量>, “単価”:<単価>, “金額”:<金額>})」などと指示します。 - 各行を JSON オブジェクトとして個別に返すよう指示します。この場合、「
Please return the line items of this invoice as an JSON array of JSON objects, each object in format: {"description”: <description>, “quantity”:<quantity>, “unit_price”:<unit price>, “amount”:<amount>}
(この請求書に記載されている明細項目を JSON オブジェクトの JSON 配列として返してください。各オブジェクトは次の形式で返してください: {“説明”:<説明>, “数量”:<数量>, “単価”:<単価>, “金額”:<金額>})」と指示します。
生成 AI モデルでは、予測の信頼度レベルは提供されません。ここでの目標である「エラーの検出」において、信頼度レベルはその目標を達成する方法の 1 つに過ぎず、最良の方法ではありません。より優れた、信頼性の高いエラーの検出方法は、同じ質問を複数の異なる聞き方ですることです。聞く質問が違えば違うほど、より信頼性が高まります。すべての回答が共通の結果に収束する場合、エラーが存在する可能性は非常に低くなります。回答が一致しない場合、エラーが存在する可能性は高くなります。
たとえば、前述の提案をさまざまな形で組み合わせて、同じ質問を 2 回、3 回、または 5 回 (エラーの見落としを回避することが手順の中でどれほど重要であるかによる) 繰り返します。すべての回答に一貫性がある場合、人間によるレビューは必要ないかもしれません。回答内容が異なる場合は、Action Center で担当者による手動のレビューが必要な可能性があります。