通知を受け取る

UiPath Document Understanding

UiPath Document Understanding

2021 年 10 月

リリース ノート - Document Understanding サービス


2021 年 10 月 19 日

改良点

ラベル付けされているドキュメントが 10 個に満たないフィールドを、確定操作を行わなくても削除できるようになりました。

バグ修正

  • 同じ名前のファイルを複数インポートした場合に発生する問題を修正しました。
  • Google OCR で空のページが含まれるドキュメントを処理しようとすると、エラーが発生する問題を修正しました。
  • [データをインポート] ダイアログ ボックスに、検証ステーションまたは Data Manager のデータセットのインポートに含まれるファイル数が誤って表示される問題を修正しました。

既知の問題

  • 既定のエクスポート (ドキュメント レベル) は、AI Center の v21.10 以降の ML パッケージでしか機能しません。ML パッケージのバージョンは、AI Center の [ML パッケージ] ビューの [変更ログ] 列に表示されます。古いバージョンを使用する場合は、[ファイルをエクスポート] ダイアログ ボックスの [後方互換性のあるエクスポート] チェックボックスをオンにしてください。

2021 年 10 月 1 日

複数ページのドキュメントのサポート

Data Manager で複数ページのドキュメントがサポートされるようになりました。これは、マシン ラーニングのフローのさまざまな面に影響を及ぼす重大な更新です。

Import: you can upload documents up to 150 pages; to bypass this limit, at the risk of an unstable labeling experience, select the Enable large documents checkbox from the Import data dialog box.

Prelabeling: the document is prelabeled as a whole, producing the same results as running in RPA workflow, but it takes more time in case of larger documents. See also Known Issues below.

Labeling: more convenient labeling due to natural scrolling through document pages.

Export: done by default at document level. Should you want to export the documents at page level, select the Backwards-compatible export checkbox from the Export files dialog box; this is also recommended if the model accuracy produced by the default export is below expectations.

Training: on most scenarios, the models trained with the new document level exported datasets should have the same performance with the page level Backwards-compatible export. However, if the models perform below expectations, we recommend that you retry the training using a Backwards-compatible export as well, in case it might produce better results.

Evaluation: this is the main motivation for the multi-page document support feature, since Evaluations scores will more accurately reflect run time performance. Please note that this assumes that each multi-page document contains a single logical document. For instance, if you import 20 page file packets containing 10 invoices of 2 pages each, then this should not be used as part of Evaluation sets. However, they can be used as part of Training sets but only if you export using the Backwards-compatible option enabled.

改良点

[ファイルをエクスポート] ダイアログ ボックスにスキーマをエクスポートするためのラジオ ボタンを追加しました。

インポートの最大サイズを 2GB または 2000 ページに増やしました。

AI Center の評価パイプラインとの一貫性を持たせるため、テスト セット評価セットに名称変更しました。

[予測] ボタンが既定で管理バーに表示されるようになりました。[設定] > [事前ラベル付け] タブで設定を行うと、ボタンが有効化されて表示されます。

評価セットのエクスポートにおいて、フィールドごとに必要なサンプル数に関するすべての制限を廃止しました。

管理バーのファイル名の横に Data Manager のセッション名が表示されるようになりました。これにより、Data Manager のタブが複数同時に開いていても、現在作業しているセッションを簡単に識別できます。

中国語で書かれたドキュメントがサポートされるようになりました。

アクセシビリティに関する改良を行いました。

ポルトガル語 (ポルトガル)ロシア語トルコ語へのローカライズを行いました。

既知の問題

  • Invoices China モデルで、日付の書式が中国語の標準形式である yyyy-mm-dd で設定されません。この問題は、今後のリリースで改良される予定です。

  • Data Manager の日付の解析が、実行時に ML モデルによって行われる解析と一致しません。Data Manager で日付が正しく解析されていない場合、実行時のモデル予測では正しく解析される可能性があります。これは既知の問題であり、今後のパッチで解決される予定です。

  • At the moment, using the Predict option with Public Endpoints prelabels only the first 10 pages of a document. This is a known issue and an enhancement will be included in an upcoming patch. Using the Predict option with ML Skills in AI Center, however, does not impose such a limitation.

リリース ノート - ML パッケージ


2021 年 10 月 22 日 | v.21.10.9

Released in AI Center Cloud & Endpoints: 22 October 2021, package version: 21.10.9

新着情報

ML パッケージ「PurchaseOrders」の一般提供を開始し、運用環境のシナリオで使用できるようにしました。

ML パッケージ「InvoicesChina」、「DeliveryNotes」、「RemittanceAdvices」、「W2」、「W9」のパブリック プレビューを開始しました。処理するドキュメントの種類に応じて、これらのパッケージを使用することをお勧めします。

改良点

ドキュメント レベルの評価を実装しました。この評価結果は、RPA ワークフローでの実行時のパフォーマンスを表すものです。

評価する ML パッケージのフィールドのうち一部のフィールドしか含まれないデータセットでも、評価を実行できるようになりました。これにより、すぐに使える事前トレーニング済みの ML パッケージの評価が簡単に行えます。

OCR が抽出結果の精度に与える影響を確認するために、評価パイプラインの実行時に OCR を再実行できるようになりました。この操作を行うには、ML パッケージを作成する際に OCR を設定しており、AI Center の評価パイプラインで環境変数 eval.redo_ocr を true に設定する必要があります。

CPU でのトレーニングに小さいモデルを使用するようにし、処理速度を 5 倍から 7 倍向上させました。ただし、CPU でのトレーニングでは精度が 0% から 5% 低下します。

評価パイプラインで生成される Evaluation.xlsx ファイルに、[Minimum Confidence] 列と [Straight Through Processing Rate] 列を追加しました。

ML パッケージ「UtilityBills」を大幅に改良しました。

住所の途中に空白行が 1 行から 2 行含まれている場合の解析処理が向上しました。

負の値、非常に大きい値 (11 桁以上)、未来の日付の抽出に関する改良を行いました。

領収書の回転された状態のボックスがサポートされるようになりました。

連結された範囲の処理機能を強化しました。

バグ修正

  • String 型のフィールド内の特殊文字が返されない問題を修正しました。
  • ML パッケージ「Passports」で、日付が英語の序数 (1st、2nd、3rd、4th など) で書かれていると正しく解析されない問題を修正しました。

既知の問題

現在、ML パッケージ「InvoicesJapan (請求書 - 日本)」と「InvoicesChina (請求書 - 中国)」の再トレーニングを検証ステーションのデータを使用して行うことは、サポートされていません。回避策として、Google Cloud Vision OCR を使用してください。

今後の非推奨化予定

UiPathDocumentOCRFormExtractorIntelligentFormExtractorIntelligentKeywordClassifier を除くすべてのパブリック エンドポイントは、2021 年 12 月 1 日から西ヨーロッパ以外のリージョンで非推奨になります。

パブリック エンドポイント

7 か月前に更新


2021 年 10 月


改善の提案は、API リファレンスのページでは制限されています

改善を提案できるのは Markdown の本文コンテンツのみであり、API 仕様に行うことはできません。