- Document Understanding のリリース ノート
- ML パッケージとパブリック エンドポイントのリリース ノート
Document Understanding のリリース ノート
2021 年 10 月
改良点
ラベル付けされているドキュメントが 10 個に満たないフィールドを、確定操作を行わなくても削除できるようになりました。
バグ修正
- 同じ名前のファイルを複数インポートした場合に発生する問題を修正しました。
- Google OCR で空のページが含まれるドキュメントを処理しようとすると、エラーが発生する問題を修正しました。
- [データをインポート] ダイアログ ボックスに、検証ステーションまたは Data Manager のデータセットのインポートに含まれるファイル数が誤って表示される問題を修正しました。
既知の問題
- 既定のエクスポート (ドキュメント レベル) は、AI Center の v21.10 以降の ML パッケージでしか機能しません。ML パッケージのバージョンは、AI Center の [ML パッケージ] ビューの [変更ログ] 列に表示されます。古いバージョンを使用する場合は、[ファイルをエクスポート] ダイアログ ボックスの [後方互換性のあるエクスポート] チェックボックスをオンにしてください。
複数ページのドキュメントのサポート
Data Manager で複数ページのドキュメントがサポートされるようになりました。これは、マシン ラーニングのフローのさまざまな面に影響を及ぼす重大な更新です。
インポート: 最大 150 ページまでのドキュメントをアップロードできます。この制限を回避するには、[データをインポート] ダイアログ ボックスの [サイズの大きなドキュメントのインポートを有効化] チェックボックスをオンにします。ただし、この操作を行うとラベル付け処理が不安定になるリスクがあります。
事前ラベル付け: ドキュメントは、個々のページとしてではなく 1 つのドキュメントとして事前ラベル付けされるため、RPA ワークフローで実行するのと同じ結果が生成されます。ただし、大きなドキュメントの場合は、処理に時間がかかる場合があります。以下に記載されている「既知の問題」もあわせてご覧ください。
ラベル付け: ドキュメントのページ間をスクロールして自然に移動できるため、より快適にラベル付けが行えます。
エクスポート: 既定でドキュメント レベルで実行されます。ドキュメントをページ レベルでエクスポートする場合は、[ファイルをエクスポート] ダイアログ ボックスの [後方互換性のあるエクスポート] チェックボックスをオンにします。この設定は、既定のエクスポートによって生成されるモデルの精度が期待を下回る場合にも推奨されます。
トレーニング: 今回新しくサポートを開始したドキュメント レベルのエクスポートでトレーニングされたモデルのパフォーマンスは、ページ レベルの後方互換性のあるエクスポートでトレーニングされたモデルのパフォーマンスと、ほとんどのシナリオにおいて、同等のはずです。ただし、モデルのパフォーマンスが期待を下回る場合は、後方互換性のあるエクスポートもあわせて使用して再トレーニングすることをお勧めします。これにより、より精度の高い結果が得られる可能性があります。
評価: 複数ページのドキュメントを処理できるようになったため、実行時のパフォーマンスが評価スコアにより正確に反映されるようになりました。なお、複数ページのドキュメントにはそれぞれ論理的なドキュメントが 1 つだけ含まれていることを前提としています。たとえば、1 件あたり 2 ページにわたる請求書が 10 件含まれる 20 ページのファイルをインポートする場合、このファイルは評価セットの一部として使用すべきではありません。ただし、[後方互換性のあるエクスポート] オプションを有効化してエクスポートする場合にのみ、トレーニング セットの一部として使用できます。
改良点
[ファイルをエクスポート] ダイアログ ボックスにスキーマをエクスポートするためのラジオ ボタンを追加しました。
インポートの最大サイズを 2GB または 2000 ページに増やしました。
AI Center の評価パイプラインとの一貫性を持たせるため、テスト セットを評価セットに名称変更しました。
[予測] ボタンが既定で管理バーに表示されるようになりました。[設定] > [事前ラベル付け] タブで設定を行うと、ボタンが有効化されて表示されます。
評価セットのエクスポートにおいて、フィールドごとに必要なサンプル数に関するすべての制限を廃止しました。
管理バーのファイル名の横に Data Manager のセッション名が表示されるようになりました。これにより、Data Manager のタブが複数同時に開いていても、現在作業しているセッションを簡単に識別できます。
中国語で書かれたドキュメントがサポートされるようになりました。
アクセシビリティに関する改良を行いました。
ポルトガル語 (ポルトガル)、ロシア語、トルコ語へのローカライズを行いました。
既知の問題
- Invoices China モデルで、日付の書式が中国語の標準形式である yyyy-mm-dd で設定されません。この問題は、今後のリリースで改良される予定です。
- Data Manager の日付の解析が、実行時に ML モデルによって行われる解析と一致しません。Data Manager で日付が正しく解析されていない場合、実行時のモデル予測では正しく解析される可能性があります。これは既知の問題であり、今後のパッチで解決される予定です。
- 現時点では、パブリック エンドポイントを使用して [予測] オプションを使用すると、ドキュメントの最初の 10 ページにしか事前ラベル付けが行われません。これは既知の問題であり、今後のパッチで改良される予定です。ただし、AI Center で ML スキルを使用して [予測] オプションを使用した場合は、そのような制限は適用されません。