リリース ノート - ML パッケージ
2022 年 3 月 14 日 | v22.1.6
DocumentUnderstanding + DocumentClassifier + Data Extraction ML Packages Released in AI Center Cloud, package version 22.1.6
バグ修正
- 空の行の前処理における ML パッケージの問題が原因で、AI Center のトレーニング パイプラインまたはフル パイプラインが失敗する問題を修正しました。
更新された ML パッケージ
ML Package | Public Preview | Generally Available |
---|---|---|
DocumentUnderstanding | ||
DocumentClassifier | ||
Invoices | ||
InvoicesAustralia | ||
InvoicesIndia | ||
InvoicesJapan | ||
InvoicesChina | ||
Receipts | ||
PurchaseOrders | ||
UtilityBills | ||
IDCards | ||
Passports | ||
RemittanceAdvices | ||
DeliveryNotes | ||
W2 | ||
W9 |
2022 年 3 月 7 日 | v22.2.3
UiPathDocumentOCR - Released in AI Center Cloud, package version 22.2.3
機能の向上
HandwritingRecognitionOCR を UiPathDocumentOCR に統合しました。多くの場合、ドキュメント内には活字と手書きテキストのフィールドが混在しています。手書き文字の読み取り機能を統合することにより、活字のフィールドには活字の認識機能を、手書きテキストのフィールドには手書きテキストの認識機能を適用できるようになりました。
Altough HandwritingRecognitionOCR can detect any handwriting, please know that it is trained and optimized only for English.
改良点
単語カウントの制限をページあたり 1600 から 10000 に増やしました。
科学記号 μ
、≤
、≥
、<
、>
を追加しました。
2022 年 3 月 2 日 | v22.1.4
DocumentUnderstanding + DocumentClassifier + Data Extraction ML Packages Released in AI Center Cloud, package version 22.1.4
更新内容
Utility Bills (公共料金請求書) ML パッケージの一般提供 (GA) を開始しました。
改良点
全体的なパフォーマンスとスケーラビリティが向上しました。
DocumentUnderstanding ML パッケージの新しいバージョンを使用してトレーニングした時のスコアが、以前のバージョンと比較して大幅に向上しました。
列フィールド内の日付が正しく解析されるようになりました。
日付の解析時にトルコ語の月名が認識されるようになりました。
変更箇所
GPU または CPU でトレーニングを行う際のトレーニング パイプラインとフル パイプラインの挙動を変更しました。CPU でトレーニングする v21.10.x のモデルのサイズは以前より小さいため、トレーニングの速度は以前のバージョンに比べて向上しましたが、精度はわずかに低下していました。
今回のリリースではこの挙動を元に戻し、GPU でも CPU でもまったく同じモデルがトレーニングに使用されるようにしました。これにより、トレーニングの速度は v2021.10 より前のモデルの時と同じ速度に戻りました。つまり、CPU でのトレーニングは GPU でのトレーニングよりも 10 倍から 20 倍遅い速度で行われます。
更新された ML パッケージ
ML Package | Public Preview | Generally Available |
---|---|---|
DocumentUnderstanding | ||
DocumentClassifier | ||
Invoices | ||
InvoicesAustralia | ||
InvoicesIndia | ||
InvoicesJapan | ||
InvoicesChina | ||
Receipts | ||
PurchaseOrders | ||
UtilityBills | ||
IDCards | ||
Passports | ||
RemittanceAdvices | ||
DeliveryNotes | ||
W2 | ||
W9 |
リリース ノート - Document Understanding サービス
2022 年 3 月 29 日
改良点
ドキュメントの種類 (トレーニング、検証、評価) を分かりやすく説明するツールチップを追加しました。
バグ修正
-
ファイル名に URL エンコードを必要とする文字 (
&
、,
、+
、#
、'
) が含まれるドキュメントの検索またはダウンロードが、無効なクエリとして失敗していた既知の問題を修正しました。 -
テキストの密度が非常に高いドキュメントで [予測] 機能が失敗する問題を修正しました。
2022 年 3 月 7 日
改良点
ドキュメント内検索機能を実装しました。現在のドキュメント内に存在するテキストのインスタンスを検索できるため、ページ数が多いドキュメントの場合に特に便利です。この機能は画面の左下の検索バーから利用できます。検索バーにはショートカット キー「Ctrl
+ Shift
+ F
」でアクセスすることもできます。
[予測] 機能の使用時に、手動でラベル付けしたデータが削除され、モデルからの新しい値でドキュメントが上書きされるようになりました。
データセットを別の Document Manager セッションにインポートする際やトレーニング パイプラインを実行する際に、split.csv
が使用されなくなりました。このファイルのデータは、データセット内の latest フォルダー (より正確には subset フィールド) の JSON ファイルに統合されました。したがって、ファイルを手動で変更したりデータセットから完全に削除したりしても、モデルのトレーニングには影響しません。ただし、v21.10 以前の ML パッケージでは、このファイルは引き続きドキュメント レベルのエクスポートに使用されます。
個々のファイルを完全に削除するオプションを追加しました。このオプションは、ダウンロード オプションとともに、ドキュメント名の横にあるドロップダウン リストから利用できます。
3 日前に更新