Document Understanding - フィールドを作成および設定する

document-understanding

2020.10

false

Document Understanding ガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

フィールドを作成および設定する

フィールドを追加する

フィールドは削除することも名前を変更することもできません。したがって、新しいフィールドを追加する前に慎重に検討してください。ただし、後から ML モデルのトレーニングに使用しないことにしたフィールドがある場合は、[フィールドを編集] ウィンドウの [非表示] チェックボックスを使用して、そのフィールドを常に非表示にすることができます。

フィールドの詳細、フィールドの意味、フィールドを使用するタイミングについては、こちらをクリックしてください。

注: 作成できるフィールドは、最大 40 件です。

列フィールド

請求書ドキュメントの明細項目である説明または単価は、列フィールドの例となります。

ページ上部の表セクションの + アイコンをクリックし、新しい列フィールドを追加します。[新しい列フィールドを作成] ウィンドウが表示されます。
[一意のフィールド名を入力] フィールドに、フィールドの一意の名前を入力します。このフィールドでは大文字は使用できません。
[作成] をクリックします。[フィールドを編集] ウィンドウが表示されます。
[コンテンツの種類] ドロップダウンリストからコンテンツの種類を選択します。
[スコアリング] ドロップダウンリストから、モデル予測の評価を実行する際の精度の決定に使用する尺度を選択します。
[ホットキー] フィールドをクリックし、お使いのキーボードのキーを押すと、キーが自動的に設定されます。
[色] フィールドに、フィールドの目的の色の 16 進コードを入力します。
確認対象のフィールドが、住所や説明のように、複数のテキスト行にまたがる可能性がある場合は、[複数行] チェックボックスをオンにします。このオプションをオンにしない場合は、最初の行だけが返されます。
このフィールドを明細項目や表の行の区切り文字として使用する場合は、[項目を分割] チェックボックスをオンに選択します。行にこのフィールドが表示されている場合は、新しい明細項目または表の行とみなされます。通常は、請求書の明細項目の「明細金額」フィールドで使用されます。
エクスポートされるデータセットにこのフィールドを含めたくない場合は、[非表示] チェックボックスをオンにします。
[保存] をクリックして設定を保存します。

標準フィールド

これらは、特定のドキュメントに 1 回だけ表示されるフィールドです。列フィールドの例としては、請求書ドキュメントの明細項目である請求書番号または合計金額があります。

[標準フィールド] セクションの右側のペインで + アイコンをクリックします。[新しい標準フィールドを作成] ウィンドウが表示されます。
[一意のフィールド名を入力] フィールドに、フィールドの一意の名前を入力します。このフィールドでは大文字は使用できません。
[作成] をクリックします。[フィールドを編集] ウィンドウが表示されます。
[コンテンツの種類] ドロップダウンリストからコンテンツの種類を選択します。
指定したページ上の単一のフィールドで、モデルが複数のインスタンスを予測する場合は、[後処理] ドロップダウンリストから後処理のメカニズムを選択します。
[ホットキー] フィールドをクリックし、お使いのキーボードのキーを押すと、キーが自動的に設定されます。
[色] フィールドに、目的のフィールドの色の 16 進コードを入力します。
[複数ページ] ドロップダウンリストから、データの取得方法を選択します。このオプションは、複数のページを持つドキュメントのいくつかの異なるページにフィールドが表示される場合に使用します。このオプションでは、モデルが返す結果の決定方法を定義します。
[スコアリング] ドロップダウンリストから、モデル予測の評価を実行する際の精度の決定に使用する尺度を選択します。
確認対象のフィールドが、住所や説明のように、複数のテキスト行にまたがる可能性がある場合は、[複数行] チェックボックスをオンにします。このオプションをオンにしない場合は、最初の行だけが返されます。
エクスポートされるデータセットにこのフィールドを含めたくない場合は、[非表示] チェックボックスをオンにします。
[保存] をクリックして設定を保存します。

分類フィールド

ドキュメント全体を参照するデータポイントです。たとえば、領収書の経費の種類 (飲食、宿泊、飛行機、輸送) または請求書の通貨 (米ドル、ユーロ、日本円) が分類フィールドの例となります。

[分類フィールド] セクションの右側のペインで + アイコンをクリックします。[新しい分類フィールドを作成] ウィンドウが表示されます。
[一意のフィールド名を入力] フィールドに、フィールドの一意の名前を入力します。このフィールドでは大文字は使用できません。
[作成] をクリックします。[フィールドを編集] ウィンドウが表示されます。
テキスト領域にクラスのリストを入力し、名前をコンマ区切りのリストとして入力します。
[保存] をクリックして設定を保存します。
重要: 標準フィールドおよび列フィールドと異なり、分類フィールドは再トレーニングされません。たとえば、通貨フィールドの場合、米ドルとインドルピーの請求書だけを含むデータセットで請求書モデルを再トレーニングすると、結果として生成されるモデルだけがこの 2 つの通貨を認識できるようになります。

フィールドの説明

管理バー

Data Manager のページの上部に表示されます。複数の操作を実行できます (ドキュメント間の移動、ドキュメントの削除、ドキュメントのフィルター処理、AI モデルの予測の実行、ドキュメントのインポートとエクスポート)。

フィールド	説明
→	アクティブなフィルターに一致するドキュメント間を移動します。 2 つの矢印の間にカウンターが表示されます。アクティブなフィルターに一致するドキュメントの総数のうち、現在のドキュメントの数を示します。
削除/回復	ドキュメントを削除または回復します。
フィルタードロップダウン	ドキュメントをフィルター処理します。このフィルターは、エクスポートされたデータにも適用されます。次のオプションを使用できます。トレーニングと検証セット -test-set -deleted -labeled -unlabeled -<batch_name>
予測	AI モデルの予測を実行し、結果を表示します。
インポート	ラベル付けする新しいドキュメントをインポートします。
エクスポート	ラベル付けされたデータをエクスポートします。エクスポートされたデータには、アクティブなフィルターが適用されます。
[ドキュメント名]	現在アクティブなドキュメントの名前です。
[ユーザー名]	現在アクティブなユーザーのユーザー名です。
ログアウト	Data Manager からログアウトします。ログアウトすると、Cookie もクリアされます。
ヘルプ	Data Manager のヘルプメニューを表示します。

フィールドを作成ウィンドウ

追加するフィールドの名前を設定できます。

フィールド	説明
一意のフィールド名を入力	フィールドの名前です。小文字、数字、アンダースコア (_)、およびダッシュ (-) のみを含めることができます。

フィールドを編集ウィンドウ

標準フィールドと列フィールドを設定できます。

フィールド	説明
コンテンツの種類	フィールドのコンテンツの種類です。次のオプションを使用できます。文字列 – 会社名、住所、支払い条件、およびその他の RPA 開発者が RPA ワークフロー内に解析または書式設定ロジックを手動で構築するためのあらゆるフィールドに適しています。数値 – 金額または数量に適しており、小数点/桁区切り文字をインテリジェントに解析します。日付 – モデルによって、出力が yyyy-mm-dd 形式で解析、フォーマット、統合されます。 phone - 電話番号に適しています。 ID 番号 – 英数字のコードや ID の数字に適しています。コンテンツの種類「文字列」に似ていますが、「:」の前の文字をすべて削除します。
後処理	標準フィールドにのみ表示されます。後処理のメカニズムです。次のオプションを使用できます。 first span – モデルは、指定したページでフィールドが複数箇所に出現すると予測した場合、最初の箇所を返します。 largest value – モデルは、指定したページでフィールドが複数箇所に出現すると予測した場合、最も大きい数値を返します。これは、コンテンツの種類が number の場合にのみ表示され、[合計金額] フィールドに適しています。 longest value – モデルは、指定したページでフィールドが複数箇所に出現すると予測した場合、最も長い文字列から成る値を返します。
ホットキー	フィールドのショートカットキーです。
色	フィールドの色です。
複数ページ	ドキュメント内の複数のページにフィールドが表示される場合にデータを返す方法です。次のオプションを使用できます。 highest confidence - string、phone、および number といった種類のコンテンツに対して既定で選択される値です。 first occurrence - id-no および data といった種類のコンテンツに対して既定で選択される値です。最後の発生時刻 - longest string - コンテンツの種類が string の場合にのみ表示されます。 - shortest string - コンテンツの種類が string の場合にのみ表示されます。 - highest numeric value - コンテンツの種類が number の場合にのみ表示されます。 - lowest numeric value - コンテンツの種類が number の場合にのみ表示されます。
スコアリング	コンテンツの種類が string の場合にのみ設定できます。他のすべてのコンテンツの種類では、完全一致のスコアリング方法が使用されます。モデル予測の評価を実行するときの精度を決定するために使用する尺度です。 exact match – 予測は、真の値に完全に一致する場合にのみ正しい (スコア: 1) とみなされます。1 文字でも異なる場合は、正しくない (スコア: 0) とみなされます。 levenshtein – 予測は、予測と真の値の間のレーベンシュタイン距離に基づいて、部分的に正しいものとみなされます。10 文字の値が、最後の 2 文字を除き正しく予測される場合、この予測のスコアは 0.8 になります。
複数行	複数行にまたがる可能性があるフィールド (住所や説明など) の場合に、このチェックボックスをオンにします。オンにしない場合は、最初の行だけが返されます。
項目を分割	列フィールドにのみ表示されます。このフィールドを明細項目や表の行の区切り文字として使用する場合は、このチェックボックスをオンにします。行にこのフィールドが表示されている場合は、新しい明細項目または表の行とみなされます。通常は、請求書の明細項目の「明細金額」フィールドで使用されます。
非表示	エクスポートされるデータセットにこのフィールドが含まれないようにしたい場合は、このチェックボックスをオンにします。

Data Manager のヘルプメニュー

[ラベル付けのコントロール] セクションには、データを処理するときに使用されるコントロールが表示されます。

[ドキュメントのショートカット] セクションには、ナビゲーションや UI のスケーリングなどのさまざまな操作の実行に使用されるショートカットが表示されます。

[構成] セクションには、インストール時に実行されたインスタンス構成に関する詳細が表示されます。

[エラー報告] セクションで、最近生成されたログを表示できます。

フィールドを追加する
列フィールド
標準フィールド
分類フィールド
フィールドの説明
管理バー
フィールドを作成ウィンドウ
フィールドを編集ウィンドウ
Data Manager のヘルプメニュー

このページは役に立ちましたか?

前へ事前ラベル付けを設定する

次へドキュメントをインポートする