- リリース ノート
2022 年 3 月
DocumentUnderstanding (ドキュメントの理解) + DocumentClassifier (ドキュメント分類) + データ抽出 ML パッケージを AI Center Cloud で公開、パッケージ バージョン: 22.1.6
バグ修正
- 空の行の前処理における ML パッケージの問題が原因で、AI Center のトレーニング パイプラインまたはフル パイプラインが失敗する問題を修正しました。
UiPathDocumentOCR (UiPath ドキュメント OCR) - AI Center Cloud で公開、パッケージ バージョン: 22.2.3
機能の向上
HandwritingRecognitionOCR を UiPathDocumentOCR に統合しました。多くの場合、ドキュメント内には活字と手書きのテキストのフィールドが混在しています。手書き文字の読み取り機能を統合することにより、活字のフィールドには活字の認識機能を、手書きのテキストのフィールドには手書きのテキストの認識機能を適用できるようになりました。
なお、HandwritingRecognitionOCR がトレーニングされ最適化されているのは英語の手書き文字に対してのみである点にご注意ください。
改良点
単語カウントの制限をページあたり 1600 から 10000 に増やしました。
μ
、≤
、≥
、<
、>
を追加しました。
DocumentUnderstanding (ドキュメントの理解) + DocumentClassifier (ドキュメント分類) + データ抽出 ML パッケージを AI Center Cloud で公開、パッケージ バージョン: 22.1.4
更新内容
Utility Bills (公共料金請求書) ML パッケージの一般提供 (GA) を開始しました。
改良点
全体的なパフォーマンスとスケーラビリティが向上しました。
DocumentUnderstanding ML パッケージの新しいバージョンを使用してトレーニングした時のスコアが、以前のバージョンと比較して大幅に向上しました。
列フィールド内の日付が正しく解析されるようになりました。
日付の解析時にトルコ語の月名が認識されるようになりました。
変更箇所
GPU または CPU でトレーニングを行う際のトレーニング パイプラインとフル パイプラインの挙動を変更しました。CPU でトレーニングする v21.10.x のモデルのサイズは以前より小さいため、トレーニングの速度は以前のバージョンに比べて向上しましたが、精度はわずかに低下していました。
今回のリリースではこの挙動を元に戻し、GPU でも CPU でもまったく同じモデルがトレーニングに使用されるようにしました。これにより、トレーニングの速度は v2021.10 より前のモデルの時と同じ速度に戻りました。つまり、CPU でのトレーニングは GPU でのトレーニングよりも 10 倍から 20 倍遅い速度で行われます。
改良点
ドキュメントの種類 (トレーニング、検証、評価) を分かりやすく説明するツールチップを追加しました。
バグ修正
- ファイル名に URL エンコードを必要とする文字 (
&
、,
、+
、#
、'
) が含まれるドキュメントの検索またはダウンロードが、無効なクエリとして失敗していた既知の問題を修正しました。 - テキストの密度が非常に高いドキュメントで [予測] 機能が失敗する問題を修正しました。
改良点
Ctrl
+ Shift
+ F
」でアクセスすることもできます。
[予測] 機能の使用時に、手動でラベル付けしたデータが削除され、モデルからの新しい値でドキュメントが上書きされるようになりました。
split.csv
が使用されなくなりました。このファイルのデータは、データセット内の latest フォルダー (より正確には subset フィールド) の JSON ファイルに統合されました。したがって、ファイルを手動で変更したりデータセットから完全に削除したりしても、モデルのトレーニングには影響しません。ただし、v21.10 以前の ML パッケージでは、このファイルは引き続きドキュメント レベルのエクスポートに使用されます。
個々のファイルを完全に削除するオプションを追加しました。このオプションは、ダウンロード オプションとともに、ドキュメント名の横にあるドロップダウン リストから利用できます。