Document Understanding
最新
  • リリース ノート
バナーの背景画像
Document Understanding のリリース ノート
最終更新日 2024年5月16日

2022 年 3 月

リリース ノート - ML パッケージ

2022 年 3 月 14 日 | v22.1.6

DocumentUnderstanding (ドキュメントの理解) + DocumentClassifier (ドキュメント分類) + データ抽出 ML パッケージを AI Center Cloud で公開、パッケージ バージョン: 22.1.6

バグ修正

  • 空の行の前処理における ML パッケージの問題が原因で、AI Center のトレーニング パイプラインまたはフル パイプラインが失敗する問題を修正しました。

2022 年 3 月 7 日 | v22.2.3

UiPathDocumentOCR (UiPath ドキュメント OCR) - AI Center Cloud で公開、パッケージ バージョン: 22.2.3

機能の向上

HandwritingRecognitionOCRUiPathDocumentOCR に統合しました。多くの場合、ドキュメント内には活字と手書きのテキストのフィールドが混在しています。手書き文字の読み取り機能を統合することにより、活字のフィールドには活字の認識機能を、手書きのテキストのフィールドには手書きのテキストの認識機能を適用できるようになりました。

なお、HandwritingRecognitionOCR がトレーニングされ最適化されているのは英語の手書き文字に対してのみである点にご注意ください。

改良点

単語カウントの制限をページあたり 1600 から 10000 に増やしました。

科学記号 μ<> を追加しました。

2022 年 3 月 2 日 | v22.1.4

DocumentUnderstanding (ドキュメントの理解) + DocumentClassifier (ドキュメント分類) + データ抽出 ML パッケージを AI Center Cloud で公開、パッケージ バージョン: 22.1.4

更新内容

Utility Bills (公共料金請求書) ML パッケージの一般提供 (GA) を開始しました。

改良点

全体的なパフォーマンスとスケーラビリティが向上しました。

DocumentUnderstanding ML パッケージの新しいバージョンを使用してトレーニングした時のスコアが、以前のバージョンと比較して大幅に向上しました。

列フィールド内の日付が正しく解析されるようになりました。

日付の解析時にトルコ語の月名が認識されるようになりました。

変更箇所

GPU または CPU でトレーニングを行う際のトレーニング パイプラインとフル パイプラインの挙動を変更しました。CPU でトレーニングする v21.10.x のモデルのサイズは以前より小さいため、トレーニングの速度は以前のバージョンに比べて向上しましたが、精度はわずかに低下していました。

今回のリリースではこの挙動を元に戻し、GPU でも CPU でもまったく同じモデルがトレーニングに使用されるようにしました。これにより、トレーニングの速度は v2021.10 より前のモデルの時と同じ速度に戻りました。つまり、CPU でのトレーニングは GPU でのトレーニングよりも 10 倍から 20 倍遅い速度で行われます。

リリース ノート - Document Understanding

2022 年 3 月 29 日

改良点

ドキュメントの種類 (トレーニング検証評価) を分かりやすく説明するツールチップを追加しました。

バグ修正

  • ファイル名に URL エンコードを必要とする文字 (&,+#') が含まれるドキュメントの検索またはダウンロードが、無効なクエリとして失敗していた既知の問題を修正しました。
  • テキストの密度が非常に高いドキュメントで [予測] 機能が失敗する問題を修正しました。

2022 年 3 月 7 日

改良点

ドキュメント内検索機能を実装しました。現在のドキュメント内に存在するテキストのインスタンスを検索できるため、ページ数が多いドキュメントの場合に特に便利です。この機能は画面の左下の検索バーから利用できます。検索バーにはショートカット キー「Ctrl + Shift + F」でアクセスすることもできます。

[予測] 機能の使用時に、手動でラベル付けしたデータが削除され、モデルからの新しい値でドキュメントが上書きされるようになりました。

データセットを別の Document Manager セッションにインポートする際やトレーニング パイプラインを実行する際に、split.csv が使用されなくなりました。このファイルのデータは、データセット内の latest フォルダー (より正確には subset フィールド) の JSON ファイルに統合されました。したがって、ファイルを手動で変更したりデータセットから完全に削除したりしても、モデルのトレーニングには影響しません。ただし、v21.10 以前の ML パッケージでは、このファイルは引き続きドキュメント レベルのエクスポートに使用されます。

個々のファイルを完全に削除するオプションを追加しました。このオプションは、ダウンロード オプションとともに、ドキュメント名の横にあるドロップダウン リストから利用できます。

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.