Clipboard AI - データ抽出器

clipboard-ai

latest

false

Clipboard AI ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

データ抽出器

データ抽出器を使用して、さまざまなドキュメントや他のソースから関連する情報を取得できます。

ドキュメントの種類には、主に次の 3 つのカテゴリがあります。

構造化ドキュメント - 固定の形式があり、処理が容易です。ガイドに従って、必要なデータを正確なフィールドに入力します。構造化ドキュメントは、特定の種類のデータを構成するためのものです。構造化ドキュメントの例としては、納税書類、調査、アンケートなどがあります。
半構造化ドキュメント - 固定形式の部分と可変部分の両方があります。半構造化ドキュメントには、構造化ドキュメントのように特定のデータフィールドに縛られないという意味では固定の形式はありませんが、予測可能な一連の情報が含まれます。たとえば、請求書には常に一意の識別子、日付、請求書番号が含まれますが、その配置はプロバイダーによって異なります。半構造化ドキュメントには主にラベル: 値のペアが含まれ、段落が含まれる場合もあります。半構造化ドキュメントの例としては、請求書、領収書、発注書、公共料金の請求書などがあります。
非構造化ドキュメント - 情報は固定の形式に従って編成されていません。非構造化ドキュメントには主にプレーンテキストが含まれ、ほとんどのデータは構造化されていない形でテキスト内に存在します。非構造化ドキュメントの例としては、契約書、メール、診療記録などがあります。

データ抽出器は、ドキュメントからデータを抽出する方法によって異なります。この点において、抽出器には次の 2 つの種類があります。

固定出力抽出器 - 定義済みの一連の情報をドキュメントから抽出するようにトレーニングされています。たとえば、請求書抽出器は常に会社名、住所、合計金額などの抽出を試みます。
質問応答抽出器 - 特定のコンテキストに基づいて質問に回答するようにトレーニングされています。この抽出器は、自然言語理解を利用してテキストを解析し、テキストから抽出する必要のある値を正確に特定し、適切な回答を提供したり、所定のオプションのリストからオプションを選択したりします。

Clipboard AI は、次の一連のデータ抽出器を使用します。

ユニバーサル抽出器
[特定のドキュメント] 抽出器
[プレーンテキスト] 抽出器
[表および名前と値のペア] 抽出器

ユニバーサル抽出器

[ユニバーサル抽出器] は、ドキュメントからデータを抽出するための既定のオプションです。データ (プレーンテキストまたは表形式) をスキャンし、データを抽出するための最適なソリューションを決定します。既存の抽出器の組み合わせを使用し、クエリでデータ内の最適な抽出器を見つけることもできます。

ユニバーサル抽出器の操作方法について詳しくは、こちらをご覧ください。

特定のドキュメント抽出器

[特定のドキュメント] 抽出器は、特定のドキュメントの種類でトレーニングされた、一連の固定出力の抽出器です。各ドキュメントの種類は、以下のように対応する Document Understanding マシンラーニングモデルを使用して抽出されます。

請求書 (Invoice)
パスポート
領収書
ID カード
W-2 フォーム (米国の源泉徴収票)
公共料金の請求書
Purchase order
Web/デスクトップフォーム

ドキュメントの種類に基づいて、使用する Document Understanding モデルを選択できます。

プレーンテキスト抽出器

[プレーンテキスト] 抽出器は質問応答抽出器であり、GPT3 を使用してプレーンテキストドキュメント、Web ページ、メールなどからデータを取得します。半構造化ドキュメントの可変部分を処理する場合や、レイアウトが重要でない非構造化ドキュメントにも使用できます。

この抽出器では、データの意味の理解がサポートされており、質問応答機能の他に、要約、機械翻訳、ドキュメントの種類の分類、感情検出などの高度な機能もあります。

表および名前と値のペア抽出器

[表および名前と値のペア] 抽出器は固定出力抽出器であり、表と名前: 値のペアを含むドキュメントに最適です。

ユニバーサル抽出器
特定のドキュメント抽出器
プレーンテキスト抽出器
表および名前と値のペア抽出器

このページは役に立ちましたか?

前へデータマッパー

次へユニバーサル抽出器を使用する

ユニバーサル抽出器​

特定のドキュメント抽出器​

プレーン テキスト抽出器​

表および名前と値のペア抽出器​

このページは役に立ちましたか?

ユニバーサル抽出器

特定のドキュメント抽出器

プレーンテキスト抽出器

表および名前と値のペア抽出器