- リリース ノート
2021 年 10 月
改良点
ラベル付けされているドキュメントが 10 個に満たないフィールドを、確定操作を行わなくても削除できるようになりました。
バグ修正
- 同じ名前のファイルを複数インポートした場合に発生する問題を修正しました。
- Google OCR で空のページが含まれるドキュメントを処理しようとすると、エラーが発生する問題を修正しました。
- [データをインポート] ダイアログ ボックスに、検証ステーションまたは Data Manager のデータセットのインポートに含まれるファイル数が誤って表示される問題を修正しました。
既知の問題
- 既定のエクスポート (ドキュメント レベル) は、AI Center の v21.10 以降の ML パッケージでしか機能しません。ML パッケージのバージョンは、AI Center の [ML パッケージ] ビューの [変更ログ] 列に表示されます。古いバージョンを使用する場合は、[ファイルをエクスポート] ダイアログ ボックスの [後方互換性のあるエクスポート] チェックボックスをオンにしてください。
複数ページのドキュメントのサポート
Data Manager で複数ページのドキュメントがサポートされるようになりました。これは、マシン ラーニングのフローのさまざまな面に影響を及ぼす重大な更新です。
インポート: 最大 150 ページまでのドキュメントをアップロードできます。この制限を回避するには、[データをインポート] ダイアログ ボックスの [サイズの大きなドキュメントのインポートを有効化] チェックボックスをオンにします。ただし、この操作を行うとラベル付け処理が不安定になるリスクがあります。
事前ラベル付け: ドキュメントは、個々のページとしてではなく 1 つのドキュメントとして事前ラベル付けされるため、RPA ワークフローで実行するのと同じ結果が生成されます。ただし、大きなドキュメントの場合は、処理に時間がかかる場合があります。以下に記載されている「既知の問題」もあわせてご覧ください。
ラベル付け: ドキュメントのページ間をスクロールして自然に移動できるため、より快適にラベル付けが行えます。
エクスポート: 既定でドキュメント レベルで実行されます。ドキュメントをページ レベルでエクスポートする場合は、[ファイルをエクスポート] ダイアログ ボックスの [後方互換性のあるエクスポート] チェックボックスをオンにします。この設定は、既定のエクスポートによって生成されるモデルの精度が期待を下回る場合にも推奨されます。
トレーニング: 今回新しくサポートを開始したドキュメント レベルのエクスポートでトレーニングされたモデルのパフォーマンスは、ページ レベルの後方互換性のあるエクスポートでトレーニングされたモデルのパフォーマンスと、ほとんどのシナリオにおいて、同等のはずです。ただし、モデルのパフォーマンスが期待を下回る場合は、後方互換性のあるエクスポートもあわせて使用して再トレーニングすることをお勧めします。これにより、より精度の高い結果が得られる可能性があります。
評価: 複数ページのドキュメントを処理できるようになったため、実行時のパフォーマンスが評価スコアにより正確に反映されるようになりました。なお、複数ページのドキュメントにはそれぞれ論理的なドキュメントが 1 つだけ含まれていることを前提としています。たとえば、1 件あたり 2 ページにわたる請求書が 10 件含まれる 20 ページのファイルをインポートする場合、このファイルは評価セットの一部として使用すべきではありません。ただし、[後方互換性のあるエクスポート] オプションを有効化してエクスポートする場合にのみ、トレーニング セットの一部として使用できます。
改良点
[ファイルをエクスポート] ダイアログ ボックスにスキーマをエクスポートするためのラジオ ボタンを追加しました。
インポートの最大サイズを 2GB または 2000 ページに増やしました。
AI Center の評価パイプラインとの一貫性を持たせるため、テスト セットを評価セットに名称変更しました。
[予測] ボタンが既定で管理バーに表示されるようになりました。[設定] > [事前ラベル付け] タブで設定を行うと、ボタンが有効化されて表示されます。
評価セットのエクスポートにおいて、フィールドごとに必要なサンプル数に関するすべての制限を廃止しました。
管理バーのファイル名の横に Data Manager のセッション名が表示されるようになりました。これにより、Data Manager のタブが複数同時に開いていても、現在作業しているセッションを簡単に識別できます。
中国語で書かれたドキュメントがサポートされるようになりました。
アクセシビリティに関する改良を行いました。
ポルトガル語 (ポルトガル)、ロシア語、トルコ語へのローカライズを行いました。
既知の問題
- Invoices China モデルで、日付の書式が中国語の標準形式である yyyy-mm-dd で設定されません。この問題は、今後のリリースで改良される予定です。
- Data Manager の日付の解析が、実行時に ML モデルによって行われる解析と一致しません。Data Manager で日付が正しく解析されていない場合、実行時のモデル予測では正しく解析される可能性があります。これは既知の問題であり、今後のパッチで解決される予定です。
- 現時点では、パブリック エンドポイントを使用して [予測] オプションを使用すると、ドキュメントの最初の 10 ページにしか事前ラベル付けが行われません。これは既知の問題であり、今後のパッチで改良される予定です。ただし、AI Center で ML スキルを使用して [予測] オプションを使用した場合は、そのような制限は適用されません。
AI Center Cloud およびエンドポイントでの公開: 2021 年 10 月 22 日、パッケージ バージョン: 21.10.9
更新内容
ML パッケージ「PurchaseOrders」の一般提供を開始し、運用環境のシナリオで使用できるようにしました。
ML パッケージ「InvoicesChina」、「DeliveryNotes」、「RemittanceAdvices」、「W2」、「W9」のパブリック プレビューを開始しました。処理するドキュメントの種類に応じて、これらのパッケージを使用することをお勧めします。
改良点
ドキュメント レベルの評価を実装しました。この評価結果は、RPA ワークフローでの実行時のパフォーマンスを表すものです。
評価する ML パッケージのフィールドのうち一部のフィールドしか含まれないデータセットでも、評価を実行できるようになりました。これにより、すぐに使える事前トレーニング済みの ML パッケージの評価が簡単に行えます。
eval.redo_ocr
を true に設定する必要があります。
CPU でのトレーニングに小さいモデルを使用するようにし、処理速度を 5 倍から 7 倍向上させました。ただし、CPU でのトレーニングでは精度が 0% から 5% 低下します。
Evaluation.xlsx
ファイルに、[Minimum Confidence] 列と [Straight Through Processing Rate] 列を追加しました。
ML パッケージ「UtilityBills」を大幅に改良しました。
住所の途中に空白行が 1 行から 2 行含まれている場合の解析処理が向上しました。
負の値、非常に大きい値 (11 桁以上)、未来の日付の抽出に関する改良を行いました。
領収書の回転された状態のボックスがサポートされるようになりました。
連結された範囲の処理機能を強化しました。
バグ修正
- String 型のフィールド内の特殊文字が返されない問題を修正しました。
- ML パッケージ「Passports」で、日付が英語の序数 (1st、2nd、3rd、4th など) で書かれていると正しく解析されない問題を修正しました。
既知の問題
現在、ML パッケージ「InvoicesJapan (請求書 - 日本)」と「InvoicesChina (請求書 - 中国)」の再トレーニングを検証ステーションのデータを使用して行うことは、サポートされていません。回避策として、Google Cloud Vision OCR を使用してください。
今後の非推奨化の予定
UiPathDocumentOCR、FormExtractor、IntelligentFormExtractor、IntelligentKeywordClassifier を除くすべてのパブリック エンドポイントは、2021 年 12 月 1 日から西ヨーロッパ以外のリージョンで非推奨になります。