Document Understanding のリリース ノート
2022.4.0
オンプレミス版 Document Manager の公開日: 2022 年 5 月 23 日
前回の LTS リリース以降に発生した Document Manager に関する最新の変更点については、以下のリストをご覧ください。
Data Manager の名前を Document Manager に変更しました。
新しいオプションを追加し、個々のファイルを完全に削除できるようにしました。このオプションは、ダウンロード オプションを含むドロップダウン リストから利用できます。
以前作成したフィールドの名前を変更できるオプションを追加しました。
ドキュメント内の検索機能を追加し、現在のドキュメント内で単語を検索できるようになりました。
データセットのインポートから収集されたデータが、 subset フィールドの JSON ファイルに統合されるようになりました。これにより、ファイルを手動で変更したりデータセットから完全に削除したりしても、モデルのトレーニングに影響しなくなりました。
deleted
というキーワードを使用しない限り、削除されていないドキュメントのみが検索されます。
ドキュメント ビューに利用開始のヒントを追加しました。
EXEC sp_fulltext_service 'restart_all_fdhosts'
コマンドを実行します。
予測機能を Document Manager と一緒に使用する際に、ユーザーが手動で編集しなかったタグ付けされたデータが、モデルから取得した値で置き換えられるようになりました。
ドキュメントの種類 (トレーニング、検証、評価) を分かりやすく説明するツールチップを追加しました。
列フィールドと標準フィールドの編集ダイアログ ボックスを改良し、[後処理]、[複数ページ]、[スコアリング]、[色] オプションを [詳細設定] タブに移動しました。他のオプションは [全般] タブで設定できます。
重複するドキュメントのインポート速度が向上しました。
分類フィールドが作成された順序で表示されるようになりました。
- ファイル名に URL エンコードを必要とする文字 (
&
、,
、+
、#
、'
) が含まれるドキュメントの検索またはダウンロードが、無効なクエリとして失敗していた既知の問題を修正しました。 - テキストの密度が非常に高いドキュメントで [予測] 機能が失敗する問題を修正しました。
- セッションあたりでインポートできるドキュメントの上限 2,000 個を廃止しました。今後は、1 つのセッションに 2,000 個を超えるドキュメントをインポートできます。なお、1 回のインポートあたりのページ数の上限は 2,000 ページです。
ctrl
キーまたはshift
キーを押しても 4 つ以上のボックスを選択できませんでしたが、この問題を修正しました。- ポッドを再起動した後にジョブが再開しないと、タイムアウトするまでインポートの処理がハングする問題を修正しました。
- [予測] 関数の実行時に、データがドキュメント全体から抽出されない問題を修正しました。なお、この関数をパブリック エンドポイントで使用する場合のページ数の上限は変わらず 10 ページです。
- Microsoft Read OCR でサブドメイン
*.cognitiveservices.azure.com
に一致するエンドポイントを使用しようとすると「OCR endpoint is not valid
(OCR エンドポイントが無効です)」というエラーが発生する問題を修正しました。 - Document Manager へのデータセットのインポートにおいて、10 ページを超えるドキュメントのページの順序が乱れる問題を修正しました。
- [ラベル付けされたデータすべて] オプションを選択すると、空のデータセット、または完全なデータセットの一部である少量のサブセットのみがダウンロードまたはエクスポートされる問題を修正しました。
- インポートの最大サイズが 2GB または 2000 ページ から 1GB または 2000 ページに縮小されます。
- ファイル名に URL エンコードを必要とする文字 (
&
、,
、+
、#
、'
) が含まれるドキュメントを検索またはダウンロードすると、「invalid query
(クエリが無効です。)」というエラーが発生して失敗します。
Document Manager で発生したすべての変更について詳しくは、以前のリリース ノートをご覧ください。