Document Understanding モダンプロジェクトユーザーガイド

デリバリー:

最終更新日時 2025年3月27日

クラシックプロジェクトを移行する

AI Center に基づくプロジェクトを移行するには、このページの手順を使用します。プロジェクトの移行には、次の 2 つの主要な手順があります。

AI Center に基づくプロジェクトからデータセットをエクスポートする
エクスポートしたデータセットをモダンプロジェクトにインポートします。

現在の制限事項

現在、3,000 ページを超えるデータセットのインポートはサポートされていません。最初の 3,000 ページのみが正常にインポートされ、それ以降のページはインポートに失敗します。たとえば、データセットが 2,999 ページで構成されている場合に、4 ページのドキュメントをインポートしようとすると、このプロセスは成功しません。
バッチ名および対応するバッチ結果は、現在は利用できません。データがバッチに編成されている場合、バッチ結果の情報はまだ表示されません。ただし、情報は保存されています。

AI Center に基づくプロジェクトからデータセットをエクスポートする

AI Center を開き、[データのラベル付け] ページに移動します。
移行するデータのラベル付けセッションを選択します。
Document Manager が開いたら、[ドキュメントをフィルター処理] ドロップダウンリストから [トレーニングと検証セット] を選択します。

図 1. トレーニングと検証セット
[エクスポート] を選択します。
[現在の検索結果] を選択したままにして、エクスポートジョブの名前を入力します。
[Download] を選択します。

図 2. エクスポートをダウンロードする

データセットをインポートする

データのインポート先のプロジェクトに移動して、プロジェクトを開きます。
[ドキュメントの種類を追加] を選択し、新しいカスタムドキュメントの種類を作成します。

図 3. ドキュメントの種類を追加する
新しいカスタムドキュメントの種類で [アップロード] を選択し、エクスポートしたクラシックプロジェクトの zip ファイルを選択します。アップロードが完了するまで待ちます。

図 4. アップロード処理

アップロードが完了したら、ドキュメントをトレーニングで利用できます。

モデルのトレーニング

データセットがインポートされると、モデルのトレーニングが開始されます。トレーニングの完了後、モデルのスコアが表示されます。モデルの詳細なスコアを確認するには、スコアを選択して、[モデルの詳細なスコア] を選択します。

この操作を行うと [測定] ページに移動し、モデルの詳細なメトリックにアクセスできます。

同じデータセットを使用して ML を 2 回トレーニングすると、モデルのメトリックがわずかに異なることに気付く場合があります。これは、以下のようないくつかの理由で発生する可能性があります。

初期化: 機械学習では、最適化アルゴリズムをトリガーするために初期推測が必要な最適化手法を使用します。これらのアルゴリズムは予測不可能な性質であるため、トレーニングごとに初期推測が異なり、さまざまな結果につながる可能性があります。
ランダムなステート: 一部のアルゴリズムでは、その処理にランダム性を使用します。たとえば、ニューラルネットワークをトレーニングする場合、確率的勾配降下法やミニバッチ勾配降下法のような手順でランダム性が取り入れられます。そのため、モデルの初期パラメーターとデータセットが同一であっても、実行ごとにモデルのパフォーマンスが異なる場合があります。
正則化: 特定のアルゴリズムには、モデルがより小さな重みを維持するよう促進するペナルティ項が含まれています。ランダム性が関係するため、モデルは毎回異なる重みセットで動作する可能性があります。

ただし、このようにわずかな違いがあっても、必ずしもあるモデルに他のモデルと比べて優劣があることを意味するわけではないことに注意することが重要です。メトリックがわずかに異なっていても、非常に大きな違いでない限り、モデルがデータを理解する能力に基本的に変わりはありません。さらに、このプロセスを何度も繰り返して平均を取ると、同様のパフォーマンスメトリックが得られるはずです。

ドキュメントの種類マネージャーでベースモデルを変更する

クラシックプロジェクトとモダンプロジェクトのモデルの結果に大きな違いがある場合は、ベースモデルの違いが原因である可能性があります。ベースモデルを変更するには、次の手順に従います。

カスタムのドキュメントの種類から 3 点リーダーメニューを選択し、[ドキュメントの種類マネージャー] を選択します。
[設定] タブに移動します。
[ベースモデル] ドロップダウンリストから目的のモデルを選択します。
選択が完了したら、[保存] を選択します。終了するには、[戻る] を選択します。

エクスポートの種類

クラシックプロジェクトでは、さまざまな方法でデータをエクスポートできます。ただし、エクスポートしたデータの種類すべてが、モダンプロジェクトへのインポートに対応しているわけではありません。両方の種類のプロジェクトでモデルの結果を比較するには、[トレーニングと検証セット] でドキュメントをフィルター処理し、[現在の検索結果を選択] を選択してデータセットをエクスポートします。各オプションについて詳しくは、以下の表をご覧ください。

表 1. エクスポートの種類
エクスポートの種類	エクスポートされるデータ	インポートしたデータのこの後の流れ
現在の検索結果	現在フィルター処理されているデータセットをエクスポートします。これを [トレーニングと検証セット] フィルターと併せて使用します。	「トレーニング」としてタグ付けされたドキュメントは、モデルのトレーニングに使用されます。「検証」としてタグ付けされたドキュメントは、モデルのパフォーマンスの測定に使用されます。ヒント: 2 つのプロジェクトの種類の間でモデルの結果を比較するには、必ずデータセットを「トレーニングと検証セット」としてエクスポートしてインポートします。
ラベル付けされたデータすべて	すべてのアノテーション済みのドキュメントをデータセットからエクスポートします。トレーニングセット検証セット評価セット	「トレーニング」としてタグ付けされたドキュメントは、モデルのトレーニングに使用されます。「検証」としてタグ付けされたドキュメントは、モデルのパフォーマンスの測定に使用されます。「評価」としてタグ付けされたドキュメントは無視されます。
スキーマ	フィールドのリストと、そのそれぞれの設定をエクスポートします。	スキーマが存在しない場合はインポートされます。スキーマがすでに定義されている場合、インポートは失敗します。
すべて	アノテーション済みのドキュメントとアノテーション未実施のドキュメントをすべてエクスポートします。	「トレーニング」としてタグ付けされたドキュメントは、モデルのトレーニングに使用されます。「検証」としてタグ付けされたドキュメントは、モデルのパフォーマンスの測定に使用されます。「評価」としてタグ付けされたドキュメントは無視されます。アノテーション未実施のドキュメントの事前アノテーションが行われ、未確認として扱われます。