- 基本情報
- セットアップと構成
- データ マッピング
- データ プライバシー
データ抽出器
データ抽出器を使用して、さまざまなドキュメントや他のソースから関連する情報を取得できます。
ドキュメントの種類には、主に次の 3 つのカテゴリがあります。
- 構造化ドキュメント - 固定の形式があり、処理が容易です。ガイドに従って、必要なデータを正確なフィールドに入力します。構造化ドキュメントは、特定の種類のデータを構成するためのものです。構造化ドキュメントの例としては、納税書類、調査、アンケートなどがあります。
- 半構造化ドキュメント - 固定形式の部分と可変部分の両方があります。半構造化ドキュメントには、構造化ドキュメントのように特定のデータ フィールドに縛られないという意味では固定の形式はありませんが、予測可能な一連の情報が含まれます。たとえば、請求書には常に一意の識別子、日付、請求書番号が含まれますが、その配置はプロバイダーによって異なります。半構造化ドキュメントには主にラベル: 値のペアが含まれ、段落が含まれる場合もあります。半構造化ドキュメントの例としては、請求書、領収書、発注書、公共料金の請求書などがあります。
- 非構造化ドキュメント - 情報は固定の形式に従って編成されていません。非構造化ドキュメントには主にプレーン テキストが含まれ、ほとんどのデータは構造化されていない形でテキスト内に存在します。非構造化ドキュメントの例としては、契約書、メール、診療記録などがあります。
データ抽出器は、ドキュメントからデータを抽出する方法によって異なります。この点において、抽出器には次の 2 つの種類があります。
- 固定出力抽出器 - 定義済みの一連の情報をドキュメントから抽出するようにトレーニングされています。たとえば、請求書抽出器は常に会社名、住所、合計金額などの抽出を試みます。
- 質問応答抽出器 - 特定のコンテキストに基づいて質問に回答するようにトレーニングされています。 この抽出器は、自然言語理解を利用してテキストを解析し、テキストから抽出する必要のある値を正確に特定し、適切な回答を提供したり、所定のオプションのリストからオプションを選択したりします。
Clipboard AI では、次の一連のデータ抽出器を使用します。
-
ユニバーサル抽出器
- [特定のドキュメント] 抽出器
- [プレーン テキスト] 抽出器
- [表および名前と値のペア] 抽出器
ユニバーサル抽出器は、ドキュメントからデータを抽出するための既定のオプションです。データ(プレーンテキストまたは表形式)をスキャンし、それを抽出するための最適なソリューションを決定します。 既存の抽出器を組み合わせて使用し、クエリでデータ内の最適な一致を見つけることもできます。
ユニバーサル抽出器の使用方法については、こちらをご覧ください。
[特定のドキュメント] 抽出器は、特定のドキュメントの種類でトレーニングされた、一連の固定出力の抽出器です。各ドキュメントの種類は、以下のように対応する Document Understanding マシン ラーニング モデルを使用して抽出されます。
- 請求書 (Invoice)
- パスポート
- 領収書
- ID カード
- W-2 フォーム (米国の源泉徴収票)
- 公共料金の請求書
- Purchase order
- Web/デスクトップ フォーム
ドキュメントの種類に基づいて、使用する Document Understanding モデルを選択できます。
[プレーン テキスト] 抽出器は質問応答抽出器であり、GPT3 を使用してプレーン テキスト ドキュメント、Web ページ、メールなどからデータを取得します。半構造化ドキュメントの可変部分を処理する場合や、レイアウトが重要でない非構造化ドキュメントにも使用できます。
この抽出器では、データの意味の理解がサポートされており、質問応答機能の他に、要約、機械翻訳、ドキュメントの種類の分類、感情検出などの高度な機能もあります。