clipboard-ai
latest
false
  • 基本情報
    • はじめに
    • Clipboard AI のツールバー
    • このガイドについて
  • セットアップと構成
  • データ マッピング
    • データ マッパー
    • 変換
  • データ プライバシー
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
UiPath logo, featuring letters U and I in white
Clipboard AI ユーザー ガイド
Last updated 2024年10月21日

データ抽出器

データ抽出器を使用して、さまざまなドキュメントや他のソースから関連する情報を取得できます。

ドキュメントの種類には、主に次の 3 つのカテゴリがあります。

  • 構造化ドキュメント - 固定の形式があり、処理が容易です。ガイドに従って、必要なデータを正確なフィールドに入力します。構造化ドキュメントは、特定の種類のデータを構成するためのものです。構造化ドキュメントの例としては、納税書類、調査、アンケートなどがあります。
  • 半構造化ドキュメント - 固定形式の部分と可変部分の両方があります。半構造化ドキュメントには、構造化ドキュメントのように特定のデータ フィールドに縛られないという意味では固定の形式はありませんが、予測可能な一連の情報が含まれます。たとえば、請求書には常に一意の識別子、日付、請求書番号が含まれますが、その配置はプロバイダーによって異なります。半構造化ドキュメントには主にラベル: 値のペアが含まれ、段落が含まれる場合もあります。半構造化ドキュメントの例としては、請求書、領収書、発注書、公共料金の請求書などがあります。
  • 非構造化ドキュメント - 情報は固定の形式に従って編成されていません。非構造化ドキュメントには主にプレーン テキストが含まれ、ほとんどのデータは構造化されていない形でテキスト内に存在します。非構造化ドキュメントの例としては、契約書、メール、診療記録などがあります。

データ抽出器は、ドキュメントからデータを抽出する方法によって異なります。この点において、抽出器には次の 2 つの種類があります。

  • 固定出力抽出器 - 定義済みの一連の情報をドキュメントから抽出するようにトレーニングされています。たとえば、請求書抽出器は常に会社名、住所、合計金額などの抽出を試みます。
  • 質問応答抽出器 - 特定のコンテキストに基づいて質問に回答するようにトレーニングされています。 この抽出器は、自然言語理解を利用してテキストを解析し、テキストから抽出する必要のある値を正確に特定し、適切な回答を提供したり、所定のオプションのリストからオプションを選択したりします。

Clipboard AI では、次の一連のデータ抽出器を使用します。

  • ユニバーサル抽出器

  • [特定のドキュメント] 抽出器
  • [プレーン テキスト] 抽出器
  • [表および名前と値のペア] 抽出器

ユニバーサル抽出器

ユニバーサル抽出器は、ドキュメントからデータを抽出するための既定のオプションです。データ(プレーンテキストまたは表形式)をスキャンし、それを抽出するための最適なソリューションを決定します。 既存の抽出器を組み合わせて使用し、クエリでデータ内の最適な一致を見つけることもできます。

ユニバーサル抽出器の使用方法については、こちらをご覧ください。

特定のドキュメント抽出器

[特定のドキュメント] 抽出器は、特定のドキュメントの種類でトレーニングされた、一連の固定出力の抽出器です。各ドキュメントの種類は、以下のように対応する Document Understanding マシン ラーニング モデルを使用して抽出されます。

  • 請求書 (Invoice)
  • パスポート
  • 領収書
  • ID カード
  • W-2 フォーム (米国の源泉徴収票)
  • 公共料金の請求書
  • Purchase order
  • Web/デスクトップ フォーム

ドキュメントの種類に基づいて、使用する Document Understanding モデルを選択できます。

プレーン テキスト抽出器

[プレーン テキスト] 抽出器は質問応答抽出器であり、GPT3 を使用してプレーン テキスト ドキュメント、Web ページ、メールなどからデータを取得します。半構造化ドキュメントの可変部分を処理する場合や、レイアウトが重要でない非構造化ドキュメントにも使用できます。

この抽出器では、データの意味の理解がサポートされており、質問応答機能の他に、要約、機械翻訳、ドキュメントの種類の分類、感情検出などの高度な機能もあります。

表および名前と値のペア抽出器

[表および名前と値のペア] 抽出器は固定出力抽出器であり、表と名前:値のペアを含むドキュメントに最適です。

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.