Document Understanding モダンプロジェクトユーザーガイド

デリバリー:

最終更新日時 2025年4月17日

開発

このセクションでは、次の操作を行うことができます。

ドキュメントをアップロードし、自動的に分類します。
ドキュメントをドキュメントの種類に直接アップロードします。
プロジェクトからファイルを管理します (ファイルの追加・削除、タグの追加・変更)。
ドキュメントのアノテーションを行います。
フィールドを追加または削除します。
推奨事項を実行しながら分類モデルと抽出モデルをトレーニングする、ガイド付きエクスペリエンスを利用します。

ドキュメントのアノテーションを行う

プロジェクトが正常に作成され、ドキュメントを特定のドキュメントの種類にアップロードすると、ドキュメントに自動的にアノテーションが行われます。これは、ドキュメントの種類のスキーマに基づいて、生成 AI のモデルと専門家されたモデルを組み合わせて行なわれます。このスキーマでは、特定のドキュメントの種類から抽出するフィールドが明確に定義されています。ドキュメントの種類のスキーマを確認するには、[アノテーション] ページに移動して [フィールド] セクションを確認します。

ドキュメントのアノテーションを行う方法について詳しくは、「ドキュメントのアノテーションを行う」をご覧ください。

ドキュメントにタグを付ける

ドキュメントをアップロードしたら、ドキュメントにタグを追加できます。

ドキュメントごとに 1 つのタグ (最大 100 文字) を追加できます。

ドキュメントにタグを追加するには、追加するドキュメントを選択し、ドキュメントの種類のリストの上にあるメニューから [タグ] ボタンを選択します。

タグを使用してフィルター処理すると、ドキュメントをより簡単に検索できます。また、モデルのトレーニング時に、高度な設定ファイル内のタグごとに結果を確認することもできます。

フィールドの設定を編集する

[ドキュメントの種類マネージャー] から複数のフィールドの設定を編集できます。

[ドキュメントの種類マネージャー] にアクセスするには、編集するドキュメントの種類の横にある 3 点リーダーメニューのアイコン ⋮ を選択し、メニューから [ドキュメントの種類の管理] を選択します。

図 1. ドキュメントの種類を選択マネージャー

新しいフィールドを編集または追加する

新しいフィールドを追加するには、[フィールドを追加] を選択し、必要な情報を入力します。各フィールドの以下のオプションを追加または編集できます。

フィールド名: フィールドの一意の名前です。
コンテンツの種類: フィールドのコンテンツの種類です。
- 文字列: 会社名、住所、支払条件、および RPA ワークフロー内で解析または書式設定ロジックを手動で構築するその他のあらゆるフィールドに使用されます。
- 数値: 金額または数量に使用され、小数点/桁区切り文字をインテリジェントに解析します。
- 日付: YYYY-MM-DD 形式を使用して、出力を解析、フォーマット、統合します。
- 電話番号: 電話番号に使用されます。書式を設定すると文字と括弧が削除され、スペースがダッシュに置き換えられます。
- ID番号: 英数字のコードや ID の数字に使用されます。コンテンツの種類「文字列」に似ていますが、「:」の前に来る文字をすべて削除します。抽出する ID 番号に「:」が含まれる場合は、データの損失を避けるためコンテンツの種類に「文字列」を使用してください。
ショートカット: フィールドのショートカットキーです。1 つのキー、または 2 つのキーの組み合わせを使用できます。
詳細設定: 利用可能なオプションは、選択したフィールドのコンテンツの種類によって異なります。編集するフィールドの [詳細設定] ボタンを選択します。
図 2. ドキュメントの種類の詳細設定
- フィールド ID: フィールドの一意の ID です。
- 後処理
  - first_span: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、1 つ目のインスタンスを返すようにします。
  - longest_value: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、最も文字数が多い値を返すようにします。
  - highest_confidence: モデルがドキュメント内のあるフィールドに対して 2 つ以上のインスタンスを予測した場合に、最も信頼度の高い値を返すようにします。
  スコアリング: モデルの予測の評価を実行するときの精度を決定するために使用する尺度です。コンテンツの種類が [文字列] のフィールドでのみ利用できます。
  - exact_match: 予測は、真の値に完全に一致する場合にのみ正しい (スコア: 1) とみなされます。1 文字でも異なる場合は、正しくない (スコア: 0) とみなされます。これは、[文字列] フィールド以外のすべてのフィールドにおいて既定の設定です。
  - levenshtein: 予測は、予測と真の値の間のレーベンシュタイン距離に基づいて、部分的に正しいものとみなされます。たとえば、10 文字の値が、最後の 2 文字を除き正しく予測された場合、この予測のスコアは 0.8 になります。
- 日付形式: コンテンツの種類が [日付] のフィールドでのみ利用できます。あいまいな日付をどのように解析して返すかを指定します。
  - 自動
  - 米国の形式: YYYY-DD-MM
  - 米国以外の形式: YYYY-MM-DD
- 複数行: テキストが複数行にまたがるフィールドです (住所や説明)。これをオンにしないと、最初の行だけが返されます。
- 複数値: このフィールドは、ドキュメント内で検出されたすべての値を含むリストを返します。

この画面からフィールドを並べ替えることもできます。

トレーニングを再トリガーする前に新しいプロジェクトバージョンをパブリッシュした場合、ドキュメントの種類の設定に加えた変更は新しいプロジェクトバージョンに反映されません。

回避策: これを回避するには、ドキュメントの種類のフィールドに変更を加えた後、そのドキュメントの種類を再トレーニングします。そのためには、新しいバージョンをパブリッシュする前に、その種類の追加のドキュメントにタグを付けるか、ドキュメントを確認します。

モデルの設定

ドキュメントの種類の設定は、[モデルの設定] ビューから変更できます。このためには、[モデルの設定] を選択します。

図 3. モデルの設定

次の設定を変更できます。

ベースモデル: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、トレーニングに使用されるベースモデルによって異なります。対象のドキュメントの種類に最も類似したベースモデルを使用すると、必要とされるアノテーション作業量が減ります。
言語の数: [推奨されるアクション] に表示されるデータセットのサイズの推定値は、データセットに含まれる言語の数によって異なります。一般には、言語の数が多いほど、より多くのデータのアノテーションを行う必要があります。