Clipboard AI
最新
  • 概要
    • はじめに
  • セットアップと構成
  • データ マッピング
    • データ マッパー
    • データ抽出器
    • 変換
  • データ プライバシー
バナーの背景画像
Clipboard AI ガイド (パブリック ベータ)
最終更新日 2024年3月18日

データ抽出器

重要: UiPath Clipboard AI は現在パブリック ベータ版です。

データ抽出器を使用して、さまざまなドキュメントや他のソースから関連する情報を取得できます。

ドキュメントの種類には、主に次の 3 つのカテゴリがあります。

  • 構造化ドキュメント - 固定の形式があり、処理が容易です。ガイドに従って、必要なデータを正確なフィールドに入力します。構造化ドキュメントは、特定の種類のデータを構成するためのものです。構造化ドキュメントの例としては、納税書類、調査、アンケートなどがあります。
  • 半構造化ドキュメント - 固定形式の部分と可変部分の両方があります。半構造化ドキュメントには、構造化ドキュメントのように特定のデータ フィールドに縛られないという意味では固定の形式はありませんが、予測可能な一連の情報が含まれます。たとえば、請求書には常に一意の識別子、日付、請求書番号が含まれますが、その配置はプロバイダーによって異なります。半構造化ドキュメントには主にラベル: 値のペアが含まれ、段落が含まれる場合もあります。半構造化ドキュメントの例としては、請求書、領収書、発注書、公共料金の請求書などがあります。
  • 非構造化ドキュメント - 情報は固定の形式に従って編成されていません。非構造化ドキュメントには主にプレーン テキストが含まれ、ほとんどのデータは構造化されていない形でテキスト内に存在します。非構造化ドキュメントの例としては、契約書、メール、診療記録などがあります。

データ抽出器は、ドキュメントからデータを抽出する方法によって異なります。この点において、抽出器には次の 2 つの種類があります。

  • 固定出力抽出器 - 定義済みの一連の情報をドキュメントから抽出するようにトレーニングされています。たとえば、請求書抽出器は常に会社名、住所、合計金額などの抽出を試みます。
  • 質問応答抽出器 - 特定のコンテキストに基づいて質問に回答するようにトレーニングされています。この抽出器は、自然言語理解を利用してテキストを解析し、テキストから抽出する必要のある値を正確に特定し、適切な回答を提供したり、所定のオプションのリストからオプションを選択したりします。

ドキュメントのレイアウトとデータ抽出器の種類の基本的な違いについて説明したので、Clipboard AI 独自のデータ抽出器を確認していきます。

  • [特定のドキュメント] 抽出器
  • [プレーン テキスト] 抽出器
  • [表および名前と値のペア] 抽出器
  • [半構造化] 抽出器

抽出器はデータのコピー時に自動的に選択されます。各抽出器の結果は大きく異なるので、すべてを試してみて、ドキュメントに最適な抽出器を確認することを強くお勧めします。

自動的に選択された抽出器とは異なる抽出器を使用するには、マッパーの下部から [種類を変更] ボタンを選択します。[データ抽出器] パネルが開き、リストから別の抽出器を選択できます。新しい抽出器を選択すると、マッパー内のデータ フィールドが更新され、結果を比較できます。

特定のドキュメント抽出器

[特定のドキュメント] 抽出器は、特定のドキュメントの種類でトレーニングされた、一連の固定出力の抽出器です。各ドキュメントの種類は、以下のように対応する Document Understanding マシン ラーニング モデルを使用して抽出されます。

  • 請求書 (Invoice)
  • パスポート
  • 領収書
  • ID カード
  • W-2 フォーム (米国の源泉徴収票)
  • 公共料金の請求書
  • Purchase order
  • Web/デスクトップ フォーム

自動的に識別されたドキュメントの種類は、強調表示されて星のマークが付きます。ここに記載されているもの以外のドキュメントの種類には、他のいずれかの抽出器を使用します。

プレーン テキスト抽出器

[プレーン テキスト] 抽出器は質問応答抽出器であり、GPT3 を使用してプレーン テキスト ドキュメント、Web ページ、メールなどからデータを取得します。半構造化ドキュメントの可変部分を処理する場合や、レイアウトが重要でない非構造化ドキュメントにも使用できます。

この抽出器では、データの意味の理解がサポートされており、質問応答機能の他に、要約、機械翻訳、ドキュメントの種類の分類、センチメント検出などの高度な機能もあります。

表および名前と値のペア抽出器

[表および名前と値のペア] 抽出器は固定出力抽出器であり、ラベル: 値のペア (例: Name: John、Surname: Doe) や、表を含むドキュメントに最適です。

半構造化抽出器

[半構造化] 抽出器は質問応答抽出器です。名前から分かるように、[特定のドキュメント] 抽出器でカバーされるドキュメントとは異なる半構造化ドキュメントからデータを抽出できます。たとえば、銀行預金残高証明書、売買証書、納税申告書などに使用できます。

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.