- 概要
- セットアップと構成
- データ マッピング
- データ プライバシー
データ抽出器
データ抽出器を使用して、さまざまなドキュメントや他のソースから関連する情報を取得できます。
ドキュメントの種類には、主に次の 3 つのカテゴリがあります。
- 構造化ドキュメント - 固定の形式があり、処理が容易です。ガイドに従って、必要なデータを正確なフィールドに入力します。構造化ドキュメントは、特定の種類のデータを構成するためのものです。構造化ドキュメントの例としては、納税書類、調査、アンケートなどがあります。
- 半構造化ドキュメント - 固定形式の部分と可変部分の両方があります。半構造化ドキュメントには、構造化ドキュメントのように特定のデータ フィールドに縛られないという意味では固定の形式はありませんが、予測可能な一連の情報が含まれます。たとえば、請求書には常に一意の識別子、日付、請求書番号が含まれますが、その配置はプロバイダーによって異なります。半構造化ドキュメントには主にラベル: 値のペアが含まれ、段落が含まれる場合もあります。半構造化ドキュメントの例としては、請求書、領収書、発注書、公共料金の請求書などがあります。
- 非構造化ドキュメント - 情報は固定の形式に従って編成されていません。非構造化ドキュメントには主にプレーン テキストが含まれ、ほとんどのデータは構造化されていない形でテキスト内に存在します。非構造化ドキュメントの例としては、契約書、メール、診療記録などがあります。
データ抽出器は、ドキュメントからデータを抽出する方法によって異なります。この点において、抽出器には次の 2 つの種類があります。
- 固定出力抽出器 - 定義済みの一連の情報をドキュメントから抽出するようにトレーニングされています。たとえば、請求書抽出器は常に会社名、住所、合計金額などの抽出を試みます。
- 質問応答抽出器 - 特定のコンテキストに基づいて質問に回答するようにトレーニングされています。この抽出器は、自然言語理解を利用してテキストを解析し、テキストから抽出する必要のある値を正確に特定し、適切な回答を提供したり、所定のオプションのリストからオプションを選択したりします。
ドキュメントのレイアウトとデータ抽出器の種類の基本的な違いについて説明したので、Clipboard AI 独自のデータ抽出器を確認していきます。
- [特定のドキュメント] 抽出器
- [プレーン テキスト] 抽出器
- [表および名前と値のペア] 抽出器
- [半構造化] 抽出器
抽出器はデータのコピー時に自動的に選択されます。各抽出器の結果は大きく異なるので、すべてを試してみて、ドキュメントに最適な抽出器を確認することを強くお勧めします。
自動的に選択された抽出器とは異なる抽出器を使用するには、マッパーの下部から [種類を変更] ボタンを選択します。[データ抽出器] パネルが開き、リストから別の抽出器を選択できます。新しい抽出器を選択すると、マッパー内のデータ フィールドが更新され、結果を比較できます。
[特定のドキュメント] 抽出器は、特定のドキュメントの種類でトレーニングされた、一連の固定出力の抽出器です。各ドキュメントの種類は、以下のように対応する Document Understanding マシン ラーニング モデルを使用して抽出されます。
- 請求書 (Invoice)
- パスポート
- 領収書
- ID カード
- W-2 フォーム (米国の源泉徴収票)
- 公共料金の請求書
- Purchase order
- Web/デスクトップ フォーム
自動的に識別されたドキュメントの種類は、強調表示されて星のマークが付きます。ここに記載されているもの以外のドキュメントの種類には、他のいずれかの抽出器を使用します。
[プレーン テキスト] 抽出器は質問応答抽出器であり、GPT3 を使用してプレーン テキスト ドキュメント、Web ページ、メールなどからデータを取得します。半構造化ドキュメントの可変部分を処理する場合や、レイアウトが重要でない非構造化ドキュメントにも使用できます。
この抽出器では、データの意味の理解がサポートされており、質問応答機能の他に、要約、機械翻訳、ドキュメントの種類の分類、感情検出などの高度な機能もあります。
[表および名前と値のペア] 抽出器は固定出力抽出器であり、ラベル: 値のペア (例: Name: John、Surname: Doe) や、表を含むドキュメントに最適です。