
非構造化ドキュメントや複雑なドキュメント ユーザー ガイド
フィールドを管理する
linkこのセクションでは、フィールド グループ、フィールド、およびフィールドの種類を作成して設定する方法と、プロンプトの指示を追加する方法について説明します。
プロンプトの指示の概要
link- 抽出に関する全体的な指示 - タクソノミー全体に関連するコンテキストをモデルに提供します。プロジェクト内の全体的な抽出タスクやドキュメントの詳細を含みます。
- 指示 - ドキュメントからデータを正常に抽出する方法についてのコンテキストをモデルに提供します。指示を反復することで、予測を改善できます。
フィールド グループを作成および設定する
link- [構築] タブに移動し、[タクソノミーを管理] を選択します。
- 抽出に関する全体的な指示を追加します。
注: プロジェクト レベルの指示には、業界やドキュメントの種類についての説明、ドキュメント固有の考慮事項 (1 つのファイル内にドキュメントが複数回出現するなど) を含めることができます。
- [フィールド] タブで [新しいフィールド グループ] を選択し、以下の必須フィールドに入力します。注: フィールド グループを作成した後でのみ、個々のフィールドをそのそれぞれのフィールド グループ内に追加できます。
- フィールド グループ名: 自然言語を使用してフィールド グループに名前を付けます。
自身のユース ケースに該当する場合は、大なり記号
>
を使用してフィールド グループの階層を定義できます。この記号は、親フィールド グループと子フィールド グループとの間の関係を設定します。親フィールド グループの予測が見つからない場合、子の予測は返されません。親フィールド グループは、初期の分類とみなすことができます。注: 親フィールド グループに対する指示は、子フィールド グループには影響しません。 - 指示: 自然言語を使用して、フィールド グループの説明を入力します。
- フィールド グループ名: 自然言語を使用してフィールド グループに名前を付けます。
- [追加] を選択します。
アノテーション プロセス中にいつでも、[予測を検証] ページから直接、追加のフィールドとフィールドの種類を設定できます。
>
を使用してフィールド グループを区切ります。
フィールド グループとその階層の例については、以下をご覧ください。
- 請求書
- 請求番号
- 請求書 > 明細項目
- 単価
- 数量
- 明細行の金額
フィールドを作成および設定する
link- 関連するフィールド グループのドロップダウン アイコンを選択して、フィールド グループを展開します。
- [新しいフィールド] を選択して、個々のフィールドを作成します。
- 次のように、必要な詳細情報を入力します。
- フィールド名: フィールドに、そのフィールドが表すデータを正確に表す名前を付けます。
- 指示: フィールドに関連する詳細な説明を入力し、必要なコンテキストを抽出に対して提供します。
- 各フィールドにフィールドの種類が割り当てられている必要があります。フィールドの種類は、事前設定済みのフィールドの種類またはカスタムのフィールドの種類のいずれかにすることができます。[フィールドの種類] ドロップダウン メニューを使用して、いずれかの事前設定済みオプション ([日付]、[正確なテキスト]、[推論されたテキスト]、[金額]、[数値]、[Boolean]) を選択します。
注:
- フィールドの種類は、異なるフィールドで再利用できます。これにより、指示を共有できます。
- フィールドの種類をフィールドの作成後に変更できます。ただし、フィールドの種類を変更すると、既存のアノテーションが失われます。
- テキストのフィールドの種類には、ドキュメントに存在していて抽出されたとおりの入力値 ([正確なテキスト]) を含めることができます。また、テキストに明確に記載されていない場合は、ドキュメントから推論された入力値を含めることもできます ([推論されたテキスト])。
- カスタムのフィールドの種類を作成する場合は、ドロップダウン リストから [新しいフィールドの種類] オプションを選択します。詳しくは、「フィールドの種類を作成および設定する」をご覧ください。
- 追加のフィールドを作成する場合は、[別のフィールドを作成] を選択し、前述したように必要な詳細を入力します。
- [保存] を選択します。
フィールドの種類を作成および設定する
link新しいフィールドの種類を作成するには、次の手順を実行します。
- [タクソノミーを管理] ページの [フィールドの種類] タブで [新しいフィールドの種類] を選択します。
- 必要なフィールドに入力します。
- 名前 - フィールドの種類の名前です。
- 指示 - データの書式設定方法に関する一般的な指示を含める必要があります。また、同じフィールドの種類を共有するすべてのフィールドに対してその指示を抽出する必要があります。
注:- フィールドの種類は、異なるフィールドで再利用できます。これにより、指示を共有できます。
- フィールドの種類の指示は、出力を特定の形式に正規化するための書式設定の指示として使用されます。たとえば、すべての日付を
YYYY-MM-DD
として抽出する場合に使用します。
- [データ型] ドロップダウン リストを使用して、次のいずれかの値を選択します。
- 文字列: 各種文字のほか、数字など、任意の文字を含めることができます。また、ドキュメントに明確に存在する入力値や、ドキュメントから推論された入力値を含めることもできます。たとえば、組織名、名、住所、電話番号などです。
- [入力値] で以下のいずれかを選択します。
- ドキュメント内に存在する必要がある: 値は、ドキュメント内に出現するとおりに正確に抽出されている必要があります。
- ドキュメントから推論: 抽出値はコンテキストから推論でき、ドキュメント内のテキストと完全に一致する必要はありません。
- [入力値] で以下のいずれかを選択します。
- 日付: さまざまな非構造化形式があり、UiPath の事前トレーニング済みの日付フィールドが使用されます。たとえば、開始日、有効期限などです。
- 数値: さまざまな非構造化形式があります。値は、UiPath の事前設定済みのフィールドの種類を使用して、標準化された形式に構造化されます。たとえば、項目数、変化率、小数値などです。
- 金額: さまざまな非構造化形式があり、UiPath の事前トレーニング済みの金額モデルが使用されます。たとえば、合計保険料、手数料などです。
- Boolean: ドキュメントから推論された True または False の値です。たとえば、既存の顧客には True を設定し、存在しない顧客には False を設定できます。
- チョイス: 一連の定義済みの値にマッピングされる、推論される値または正確な値です。以下に例を示します。
- 言語: 英語、ドイツ語、フランス語
- ドキュメントの種類: 水道料金の請求書、ガス料金の請求書、光熱費の請求書
- 商品カテゴリ: 投資口座、普通預金口座、当座預金口座
- 顧客の種類: ティア 1、ティア 2、ティア 3
データ型として [チョイス] を選択すると、次のオプションが表示されます。- 表示値
- 代替値
- チョイスを追加
値を入力したり、アノテーションを任意で行ったりできます。値は、可能な場合は指定した値のセットにマッピングされます。
重要: データ型を設定すると、変更することはできません。必ず正しいデータ型を選択してください。データ型が間違っていた場合は、フィールドの種類を削除し、正しいデータ型で再作成する必要があります。その理由は、データ型が異なる互換性のないフィールドの種類には、アノテーションを再マッピングできないためです。 - 文字列: 各種文字のほか、数字など、任意の文字を含めることができます。また、ドキュメントに明確に存在する入力値や、ドキュメントから推論された入力値を含めることもできます。たとえば、組織名、名、住所、電話番号などです。
- [保存] を選択します。
推論されるフィールドと正確なフィールドの例
推論されるフィールド
私は保険会社の引受業務チームで働いています。顧客に提供する所定の保険証券のカテゴリとして、自動車、住宅、健康、高級品など数百のカテゴリがあり、そのそれぞれがタイプ A、B、C のようにタイプ カテゴリに対応しています。
ドキュメントの内容に基づいて、処理が必要な保険証券のタイプ カテゴリを抽出して特定できるようにしたいと考えています。
この例では、メッセージのどこにも、この電子メールがタイプ E に関連することを明確に示す箇所がありません。そこで指示の中で、保険の種類ごとにコンテキストを提供し、モデルの予測に情報を提供します。たとえば、高級品に関連する請求はすべてタイプ E カテゴリに属します。
- ドキュメントのどこにも存在しないが、そのコンテキストから暗示される値
- ドキュメント内の複数の領域にわたり連結する必要がある値
- 複数の段落、行、または列にまたがる値
正確なフィールド
このリクエストを簡単に処理するには、既存の保険証券番号、名前、請求額が必要になると思われます。これらは、ドキュメント自体に明確に記載されており、抽出して下流工程に送る必要があることがわかっている値です。