Document Understanding - 2021 年 10 月

document-understanding

latest

false

Document Understanding のリリースノート

Automation Cloud と Test Cloud の Document Understanding
Automation Cloud および Test Cloud (公共部門向け) の Document Understanding
- 2025 年
- 2024 年
Automation Cloud および Test Cloud (専有型) の Document Understanding
- 2025 年
ML パッケージとパブリックエンドポイント
- ML パッケージとパブリックエンドポイントの一般的な更新
- ML パッケージとパブリックエンドポイントのバージョン履歴

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

2021 年 10 月

Automation Cloud の Document Understanding の 2021 年 10 月のリリースノート

リリースノート - Document Understanding

2021 年 10 月 19 日

改良点

ラベル付けされているドキュメントが 10 個に満たないフィールドを、確定操作を行わなくても削除できるようになりました。

バグ修正

同じ名前のファイルを複数インポートした場合に発生する問題を修正しました。
Google OCR で空のページが含まれるドキュメントを処理しようとすると、エラーが発生する問題を修正しました。
[データをインポート] ダイアログボックスに、検証ステーションまたは Data Manager のデータセットのインポートに含まれるファイル数が誤って表示される問題を修正しました。

既知の問題

既定のエクスポート (ドキュメントレベル) は、AI Center の v21.10 以降の ML パッケージでしか機能しません。ML パッケージのバージョンは、AI Center の [ML パッケージ] ビューの [変更ログ] 列に表示されます。古いバージョンを使用する場合は、[ファイルをエクスポート] ダイアログボックスの [後方互換性のあるエクスポート] チェックボックスをオンにしてください。

2021 年 10 月 1 日

複数ページのドキュメントのサポート

Data Manager で複数ページのドキュメントがサポートされるようになりました。これは、マシンラーニングのフローのさまざまな面に影響を及ぼす重大な更新です。

インポート: 最大 150 ページまでのドキュメントをアップロードできます。この制限を回避するには、[データをインポート] ダイアログボックスの [サイズの大きなドキュメントのインポートを有効化] チェックボックスをオンにします。ただし、この操作を行うとラベル付け処理が不安定になるリスクがあります。

事前ラベル付け: ドキュメントは、個々のページとしてではなく 1 つのドキュメントとして事前ラベル付けされるため、RPA ワークフローで実行するのと同じ結果が生成されます。ただし、大きなドキュメントの場合は、処理に時間がかかる場合があります。以下に記載されている「既知の問題」もあわせてご覧ください。

ラベル付け: ドキュメントのページ間をスクロールして自然に移動できるため、より快適にラベル付けが行えます。

エクスポート: 既定でドキュメントレベルで実行されます。ドキュメントをページレベルでエクスポートする場合は、[ファイルをエクスポート] ダイアログボックスの [後方互換性のあるエクスポート] チェックボックスをオンにします。この設定は、既定のエクスポートによって生成されるモデルの精度が期待を下回る場合にも推奨されます。

トレーニング: 今回新しくサポートを開始したドキュメントレベルのエクスポートでトレーニングされたモデルのパフォーマンスは、ページレベルの後方互換性のあるエクスポートでトレーニングされたモデルのパフォーマンスと、ほとんどのシナリオにおいて、同等のはずです。ただし、モデルのパフォーマンスが期待を下回る場合は、後方互換性のあるエクスポートもあわせて使用して再トレーニングすることをお勧めします。これにより、より精度の高い結果が得られる可能性があります。

評価: 複数ページのドキュメントを処理できるようになったため、実行時のパフォーマンスが評価スコアにより正確に反映されるようになりました。なお、複数ページのドキュメントにはそれぞれ論理的なドキュメントが 1 つだけ含まれていることを前提としています。たとえば、1 件あたり 2 ページにわたる請求書が 10 件含まれる 20 ページのファイルをインポートする場合、このファイルは評価セットの一部として使用すべきではありません。ただし、[後方互換性のあるエクスポート] オプションを有効化してエクスポートする場合にのみ、トレーニングセットの一部として使用できます。

改良点

[ファイルをエクスポート] ダイアログボックスにスキーマをエクスポートするためのラジオボタンを追加しました。

インポートの最大サイズを 2GB または 2000 ページに増やしました。

AI Center の評価パイプラインとの一貫性を持たせるため、テストセットを評価セットに名称変更しました。

[予測] ボタンが既定で管理バーに表示されるようになりました。[設定] > [事前ラベル付け] タブで設定を行うと、ボタンが有効化されて表示されます。

評価セットのエクスポートにおいて、フィールドごとに必要なサンプル数に関するすべての制限を廃止しました。

管理バーのファイル名の横に Data Manager のセッション名が表示されるようになりました。これにより、Data Manager のタブが複数同時に開いていても、現在作業しているセッションを簡単に識別できます。

中国語で書かれたドキュメントがサポートされるようになりました。

アクセシビリティに関する改良を行いました。

ポルトガル語 (ポルトガル)、ロシア語、トルコ語へのローカライズを行いました。

既知の問題

Invoices China モデルで、日付の書式が中国語の標準形式である yyyy-mm-dd で設定されません。この問題は、今後のリリースで改良される予定です。
Data Manager の日付の解析が、実行時に ML モデルによって行われる解析と一致しません。Data Manager で日付が正しく解析されていない場合、実行時のモデル予測では正しく解析される可能性があります。これは既知の問題であり、今後のパッチで解決される予定です。
現時点では、パブリックエンドポイントを使用して [予測] オプションを使用すると、ドキュメントの最初の 10 ページにしか事前ラベル付けが行われません。これは既知の問題であり、今後のパッチで改良される予定です。なお、AI Center で ML スキルを使用して [予測] オプションを使用した場合には、そのような制限はありません。

リリースノート - Document Understanding
2021 年 10 月 19 日
2021 年 10 月 1 日

このページは役に立ちましたか?

前へ2021 年 11 月

次へ2021 年 8 月

リリース ノート - Document Understanding​

2021 年 10 月 19 日​

改良点​

バグ修正​

既知の問題​

2021 年 10 月 1 日​

複数ページのドキュメントのサポート​

改良点​

既知の問題​

このページは役に立ちましたか?

リリースノート - Document Understanding

2021 年 10 月 19 日

改良点

バグ修正

既知の問題

2021 年 10 月 1 日

複数ページのドキュメントのサポート

改良点

既知の問題