document-understanding

2024.10

false

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

Document Understanding モダンプロジェクトユーザーガイド

デリバリー:

最終更新日時 2026年1月16日

開発

このセクションでは、次の操作を行うことができます。

ドキュメントをアップロードし、自動的に分類します。
ドキュメントをドキュメントの種類に直接アップロードします。
プロジェクトからファイルを管理します (ファイルの追加・削除)。
ドキュメントのアノテーションを行います。
フィールドを追加または削除します。
推奨事項を実行しながら分類モデルと抽出モデルをトレーニングする、ガイド付きエクスペリエンスを利用します。

ドキュメントのアノテーションを行う

プロジェクトが正常に作成され、ドキュメントを特定のドキュメントの種類にアップロードすると、ドキュメントに自動的にアノテーションが行われます。これは、ドキュメントの種類のスキーマに基づいて、専門化されたモデルを使用して行われます。このスキーマでは、特定のドキュメントの種類から抽出するフィールドが明確に定義されています。ドキュメントの種類のスキーマを確認するには、[アノテーション] ページに移動して [フィールド] セクションを確認します。

ドキュメントのアノテーションを行う方法について詳しくは、「ドキュメントのアノテーションを行う」をご覧ください。

レビューが必要な例外

検証ステーションで検証されたドキュメントを使用して、モデルのパフォーマンスをさらに向上させることができます。

検証手順の後に変更が発生した場合は、影響を受けるドキュメントの種類に [レビューが必要な例外] ボタンが表示されます。

図 1. [レビューが必要な例外] ボタン

モデルを再トレーニングする方法について詳しくは、「使い方」カテゴリの「抽出器を再トレーニングする」をご覧ください。

フィールドの設定を編集する

[ドキュメントの種類マネージャー] から複数のフィールドの設定を編集できます。

[ドキュメントの種類マネージャー] にアクセスするには、編集するドキュメントの種類の横にある 3 点リーダーメニューのアイコン ⋮ を選択し、メニューから [ドキュメントの種類の管理] を選択します。

図 2. ドキュメントの種類を選択マネージャー

新しいフィールドを編集または追加する

新しいフィールドを追加するには、[フィールドを追加] を選択し、必要な情報を入力します。各フィールドの以下のオプションを追加または編集できます。

フィールド名: フィールドの一意の名前です。
コンテンツの種類: フィールドのコンテンツの種類です。
- 文字列: 会社名、住所、支払条件、および RPA ワークフロー内で解析または書式設定ロジックを手動で構築するその他のあらゆるフィールドに使用されます。
- 数値: 金額または数量に使用され、小数点/桁区切り文字をインテリジェントに解析します。
- 日付: YYYY-MM-DD 形式を使用して、出力を解析、フォーマット、統合します。
- 電話番号: 電話番号に使用されます。書式を設定すると文字と括弧が削除され、スペースがダッシュに置き換えられます。
- ID番号: 英数字のコードや ID の数字に使用されます。コンテンツの種類「文字列」に似ていますが、「:」の前に来る文字をすべて削除します。抽出する ID 番号に「:」が含まれる場合は、データの損失を避けるためコンテンツの種類に「文字列」を使用してください。
ショートカット: フィールドのショートカットキーです。1 つのキー、または 2 つのキーの組み合わせを使用できます。
詳細設定: 利用可能なオプションは、選択したフィールドのコンテンツの種類によって異なります。編集するフィールドの [詳細設定] ボタンを選択します。
図 3. ドキュメントの種類の詳細設定
- フィールド ID: フィールドの一意の ID です。
- 後処理
  - first_span: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、1 つ目のインスタンスを返すようにします。
  - longest_value: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、最も文字数が多い値を返すようにします。
  - highest_confidence: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、最も信頼度の高い値を返すようにします。
  スコアリング: モデルの予測の評価を実行するときの精度を決定するために使用する尺度です。コンテンツの種類が [文字列] のフィールドでのみ利用できます。
  - exact_match: 予測は、真の値に完全に一致する場合にのみ正しい (スコア: 1) とみなされます。1 文字でも異なる場合は、正しくない (スコア: 0) とみなされます。これは、[文字列] フィールド以外のすべてのフィールドにおいて既定の設定です。
  - levenshtein: 予測は、予測と真の値の間のレーベンシュタイン距離に基づいて、部分的に正しいものとみなされます。たとえば、10 文字の値が、最後の 2 文字を除き正しく予測された場合、この予測のスコアは 0.8 になります。
- 日付形式: コンテンツの種類が [日付] のフィールドでのみ利用できます。あいまいな日付をどのように解析して返すかを指定します。
  - 自動
  - 米国の形式: YYYY-DD-MM
  - 米国以外の形式: YYYY-MM-DD
- 複数行: テキストが複数行にまたがるフィールドです (住所や説明)。これをオンにしないと、最初の行だけが返されます。
- 複数値: このフィールドは、ドキュメント内で検出されたすべての値を含むリストを返します。

トレーニングを再トリガーする前に新しいプロジェクトバージョンをパブリッシュした場合、ドキュメントの種類の設定に加えた変更は新しいプロジェクトバージョンに反映されません。

回避策: これを回避するには、ドキュメントの種類のフィールドに変更を加えた後、そのドキュメントの種類を再トレーニングします。そのためには、新しいバージョンをパブリッシュする前に、その種類の追加のドキュメントにタグを付けるか、ドキュメントを確認します。

モデルの設定

ドキュメントの種類の設定は、[モデルの設定] ビューから変更できます。このためには、[モデルの設定] を選択します。

図 4. モデルの設定

次の設定を変更できます。

ベースモデル: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、トレーニングに使用されるベースモデルによって異なります。対象のドキュメントの種類に最も類似したベースモデルを使用すると、必要とされるアノテーション作業量が減ります。
言語の数: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、データセットに含まれる言語の数によって異なります。一般には、言語の数が多いほど、より多くのデータのアノテーションを行う必要があります。

フィールド名を検索

利用可能なフィールド名を検索できます。これを行うには、[ドキュメントの種類マネージャー] のインターフェイスの左上隅にある検索バーを使用します。より効率的な検索を行うには、[フィルター] 機能を使用してコンテンツの種類でフィルター処理します。

図 5. フィールド名を検索する

フィールドを削除する

削除するフィールドの横にある [削除] を選択します。

図 6. フィールドを削除する

複数 (またはすべて) のフィールドを選択して、一度に削除することもできます。削除するフィールドの横にあるチェックマークを選択して、[削除] をクリックします。

図 7. 複数のフィールドを一度に削除する

ドキュメントを検索する

アップロードしたドキュメントはドキュメント名で検索できます。これを行うには、[構築] セクションの右上隅にある検索バーを使用します。より効率的な検索を行うには、[フィルター] 機能を使用して次の条件でフィルター処理します。

ドキュメントの種類: ドロップダウンリストから目的のドキュメントの種類を選択します。
アップロード日: ドキュメントがアップロードされた日付の期間を選択します。
ステータス:ドキュメントのステータスを選択します。
タグ: フィルター処理するタグを選択します。

図 8. ドキュメントのフィルター処理

プロジェクトとモデルのスコア

プロジェクトの総合スコアは右上隅から確認できます。このスコアは、すべてのドキュメントの種類の分類器と抽出器のスコアを考慮して算出されています。[ プロジェクトスコア ] を選択すると [ 評価 ] セクションが表示され、より詳細なパフォーマンスの評価を確認できます。

ドキュメントの種類ごとのスコアは、[ドキュメントの種類] セクションで個別に確認できます。このスコアでは、モデルの全体的なパフォーマンスに加えてデータセットのサイズと品質も考慮されます。

注: プロジェクトのスコアを取得するには、少なくとも 10 個のドキュメントをアップロードする必要があります。ドキュメントの種類のスコアの場合、同じドキュメントの種類で少なくとも 10 個のドキュメントが必要です。

スコアタグを選択すると、使用しているモデルに関するモデルの評価を確認できます。モデルの評価は、分類モデルのパフォーマンスを視覚化するのに役立つ機能です。評価は、次のように 0 から 100 までのモデルのスコアとして表されます。

不良 (0-49)
平均的 (50-69)
良好 (70-89)
優秀 (90-100)

[モデルの詳細なスコア] を選択して [評価] セクションに移動し、詳細情報を確認します。

ドキュメントのアノテーションを行う
レビューが必要な例外
フィールドの設定を編集する
新しいフィールドを編集または追加する
モデルの設定
フィールド名を検索
フィールドを削除する
ドキュメントを検索する
プロジェクトとモデルのスコア

このページは役に立ちましたか?

前へドキュメントをインポートする

次へMeasure

Document Understanding モダン プロジェクト ユーザー ガイド

開発