Document Understanding
最新
  • Document Understanding のリリース ノート
  • ML パッケージ リリース ノート
    • ML パッケージの一般的な更新
    • ML パッケージのバージョン履歴
Document Understanding のリリース ノート
Last updated 2024年7月2日

ML パッケージのバージョン履歴

v24.4.1

DocumentUnderstanding、InvoicesJapan (請求書 - 日本)、およびエンドポイント

公開日: 2024 年 6 月 20 日

エンドポイント + DocumentUnderstanding (ドキュメントの理解) + InvoicesJapan (請求書 - 日本) ML パッケージでの公開 |v24.4.1

バグ修正

日本語専用の列フィールドの日付に関する問題を修正しました。

v24.4.0

DocumentClassifier (ドキュメント分類) とデータ抽出

公開日: 2024 年 5 月 24 日

公開されたバージョン:
  • DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージ | v24.4.0
  • DocumentClassifier (ドキュメント分類) ML パッケージ | v24.4.0

改良点

今回のリリースでは、その他の複数の ML パッケージも改良されています。
  • Invoices Japan (請求書 - 日本) ML パッケージの精度が向上しました。Invoices Japan (請求書 - 日本) モデルに新たに 11 個のフィールドを追加しました。抽出されるフィールドの完全なリストについては、Out+of+the+Box+Models+Details ファイルをご覧ください。
  • Payslips (給与明細) モデルのパフォーマンスが向上しました。
  • ID Cards (ID カード) ML パッケージで新しい ID が利用可能になりました。
    • アーダール ID カード
    • サウジアラビアの ID カード
    • PAN カード
  • UB04 (健康保険請求フォーム) ML パッケージで新しいフィールドが利用可能になりました。抽出されるフィールドの完全なリストについては、Out+of+the+Box+Models+Details ファイルをご覧ください。
  • Checks (小切手) ML パッケージで新しいフィールドが利用可能になりました。抽出されるフィールドの完全なリストについては、Out+of+the+Box+Models+Details ファイルをご覧ください。

追記 (2024 年 6 月 20 日): 日本語の日付の解析に関するバグ修正に関する情報を追加しました。

追記 (2024 年 5 月 28 日): 複数の改良点に関する詳細情報を追加しました。

v24.3.2

DocumentUnderstandingOCR エンドポイント

公開日: 2024 年 3 月 13 日

DocumentUnderstandingOCR エンドポイントでの公開 | v24.3.2

Document Understanding OCR のバージョンに、一般的な使用向けの新しいバージョンを追加しました。

今回のリリースでは以下の改良を行いました。
  • トルコ語 (TUR) の精度が向上しました。発音区別符号 (Ç、ç、Ğ、ğ、I、ı、İ、i、Ş、ş、Ö、ö、Ü、ü など) が付いた文字のパフォーマンスが向上しました。
  • 東アラビア数字 (٠、١、٢、٣、٤、٥、٦、٧、٨、٩) の精度が向上しました。

v24.2.1

DocumentUnderstandingOCR エンドポイント

公開日: 2024 年 2 月 9 日

DocumentUnderstandingOCR エンドポイントでの公開 | v24.2.1

UiPath Document Understanding OCR に対するアラビア語 (ARA) のサポートがパブリック プレビューとして公開されました。

v24.2.0

データ抽出

公開日: 2024 年 4 月 1 日

データ抽出 ML パッケージでの公開 | v24.2.0

今回のリリースでは、パブリック プレビューとして利用可能な新しいモデルがサポートされるようになりました。
  • 1040 Schedule C (米国の個人所得税申告書のスケジュール C)
  • 1040 Schedule D (米国の個人所得税申告書のスケジュール D)
  • 1040 Schedule E (米国の個人所得税申告書のスケジュール E)
  • UB-04 (健康保険請求フォーム)

Document Classifier

公開日: 2024 年 3 月 4 日

DocumentClassifier (ドキュメント分類) ML パッケージでの公開 | v23.2.0

今回のリリースでは、パブリック プレビューとして利用可能な新しいモデルがサポートされるようになりました。
  • 1040 Schedule C (米国の個人所得税申告書のスケジュール C)
  • 1040 Schedule D (米国の個人所得税申告書のスケジュール D)
  • 1040 Schedule E (米国の個人所得税申告書のスケジュール E)
  • UB-04 (健康保険請求フォーム)

v23.10.4

データ抽出

公開日: 2024 年 3 月 28 日

データ抽出 ML パッケージでの公開

すぐに使える事前トレーニング済みの ML パッケージに、一般的な使用向けの新しいバージョンを追加しました。

今回のリリースでは以下の改良を行いました。
  • トルコ語 (TUR) の精度が向上しました。発音区別符号 (Ç、ç、Ğ、ğ、I、ı、İ、i、Ş、ş、Ö、ö、Ü、ü など) が付いた文字のパフォーマンスが向上しました。
  • 東アラビア数字 (٠、١、٢、٣、٤、٥、٦、٧、٨、٩) の精度が向上しました。
  • 400 ページ未満のデータセットの精度が向上しました。

v23.10.3

DocumentUnderstanding、Data Extraction、およびエンドポイント

公開日: 2024 年 2 月 12 日

エンドポイント + DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 | v23.10.3

AI Center に含まれる、すぐに使える事前トレーニング済みの ML パッケージすべてに、一般的な使用向けの新しいバージョンを追加しました。

新しいバージョンでは、双方向 (左から右および右から左) のテキスト値の抽出に関連するバグを修正しました。

注: 現在、UiPath のプラットフォームでは、右から左に記述する言語 (ヘブライ語やアラビア語など) のローカライズを行っていません。このため、句読点または特殊文字と組み合わさると、アノテーションのインターフェイス (Document Manager) または検証のインターフェイス (Action Center の検証ステーション) ではこれらの言語のテキストが正しく表示されません。ただし、右から左への読み取りモードが有効化されているアプリケーションに文字列の値が入力された場合、テキストは正しく表示されるはずです。典型的な例の 1 つは、右から左への読み取り順序が有効化されているメモ帳です。

v23.10.2

DocumentUnderstanding (ドキュメントの理解) とデータ抽出

公開日: 2024 年 1 月 23 日

DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 | v23.10.2

すぐに使える事前トレーニング済みの ML パッケージすべてに、一般的な使用向けの新しいバージョンを追加しました。

今回のリリースでは、トレーニングが失敗することがあるバグを修正しました。

v23.10.0

DocumentUnderstanding、Data Extraction、およびエンドポイント

公開日: 2023 年 10 月 26 日

エンドポイント + DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 | v23.10.0

すぐに使える事前トレーニング済みの ML パッケージすべてに、一般的な使用向けの新しいバージョンを追加しました。

UiPath では、UiPath Document Understanding のユーザー エクスペリエンスの継続的な向上に努めています。今回のリリースでは、セキュリティと安定性に関する軽微な改良を行いました。

UiPath Document Understanding OCR

公開日: 2023 年 10 月 2 日

UiPath Document Understanding OCR で公開 |V23.10

UiPath Document Understanding OCR でヘブライ語 (HEB) がサポートされるようになりました。

v23.7.0

DocumentUnderstanding (ドキュメントの理解) とデータ抽出

公開日: 2023 年 8 月 3 日

DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 |v23.7.0

  • 表が複数のページにまたがっているドキュメントでは、表の 1 行 (1 つの明細項目) が 2 ページ、場合によってはそれ以上に分割されます。モデルの以前のバージョンでは改ページが改行であるとみなされ、1 つの項目が複数個に分割されていました。この問題は、モデルの現在のバージョンで修正されました。ワークフローでこの機能を活用するには、v1.23.0-preview の DocumentUnderstanding.ML.Activities パッケージと v23.7.0 のモデルを使用する必要があります。
  • ページあたりのモデルの予測時間が短縮され、RAM の使用が効率化されたため、より大きなサイズのドキュメントの処理が可能になりました。

v23.6.0

DocumentUnderstanding (ドキュメントの理解) とエンドポイント

公開日: 2023 年 6 月 13 日

DocumentUnderstanding (ドキュメントの理解) + エンドポイントでの公開 |v23.6.0

ML パッケージ UiPathDocumentOCR (UiPath ドキュメント OCR) の精度が向上しました。

v23.4.1

DocumentUnderstanding、Data Extraction、およびエンドポイント

公開日: 2023 年 5 月 23 日

DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 | v23.4.1

モデルのトレーニングに影響していた問題を修正しました。

v23.4.5

DocumentUnderstanding (ドキュメントの理解)

公開日: 2023 年 4 月 21 日

DocumentUnderstanding (ドキュメントの理解) での公開 | v23.4.5

一般的な活字用モデルを改良し、チェックボックス認識機能を強化しました。

v23.4.2

DocumentUnderstanding (ドキュメントの理解)

公開日: 2023 年 3 月 24 日

DocumentUnderstanding (ドキュメントの理解) での公開 |v23.4.2

UiPath Document OCR のパブリック エンドポイントを更新し、ドイツ語とフランス語の手書き文字のサポートと、デンマーク語、フィンランド語、ノルウェー語、スウェーデン語の活字のサポートを追加しました。新たにサポートされた言語は、デンマーク語、スウェーデン語、ノルウェー語、フィンランド語、ポーランド語、ハンガリー語、チェコ語、スロバキア語、エストニア語、ラトビア語、リトアニア語、スロベニア語、クロアチア語、セルビア語、トルコ語です。

v23.4.0

DocumentUnderstanding、Data Extraction、およびエンドポイント

公開日: 2023 年 5 月 10 日

DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 | v23.4.0

UiPath Document OCR が、すぐに使える事前トレーニング済みのパッケージとして提供され、GPU と CPU の両方の使用時に利用できます。これにより、パブリック エンドポイントの使用を避けたいユーザーが、独立した環境で独自のテナントに UiPath Document OCR をデプロイできるようになります。

すぐに使える、事前トレーニング済みの新しい ML パッケージを 7 つ追加しました。以下のリストをご覧ください。

  • Certificate of incorporation/Good Standing (会社存在証明書)
  • Certificate of Origin (原産地証明書)
  • Children's Product Certificate (子供向け製品証明書)
  • CMS 1500 (米国の医療保険請求フォーム)
  • EU Declaration of Conformity (EU 適合宣言書)
  • Invoices Shipping (船積送り状)
  • Pay slips (給与明細)

DocumentClassifier とエンドポイント

公開日: 2023 年 4 月 26 日

エンドポイント + DocumentClassifier (ドキュメント分類) ML パッケージでの公開 | v23.4.0

DocumentClassifier (ドキュメント分類) ML パッケージに新しいドキュメントの種類を追加し、全般的な改良と数点の軽微なバグ修正を行いました。

v23.2.0

DocumentUnderstanding、Data Extraction、およびエンドポイント

公開日: 2023 年 2 月 23 日

エンドポイント + DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 | v23.2.0

更新内容と改良点

すぐに使える事前トレーニング済みの ML パッケージの新しいバージョン (23.1.0) とパブリック エンドポイントを公開しました。このバージョンでは最先端の LayoutLM Transformers ベースのアーキテクチャが使用されているため、さらに強力になり、全体的な精度 (特に列フィールド (表)) が向上しました。

この改良により、トレーニングや予測にかかる待機時間が長くなる可能性があります。

待機時間による影響が大きい状況 (例: 有人シナリオ) では、GPU を使用して ML スキルとしてモデルをデプロイすることをお勧めします。

トレーニング/評価/フル パイプライン後のスコアの計算方法を改良し、列フィールドごとに別々のスコアが算出されるようにしました。以前は、共に取得されたすべての列フィールド全体の F1 スコアが計算されていました。

今後、モデルの評価で使用される手動編集機能の削除が予定されています。詳しくは、こちらをご覧ください。

既知の問題

現在、AI Center からのプロジェクトのインポートは無効化されています。この問題の解決に取り組んでおり、3 月末までに再び有効化される予定です。

追記 (2023 年 5 月 8 日)

既知の問題

フル パイプラインまたはトレーニング パイプラインの実行時に、「Fatal Python error: Segmentation fault」というエラーが発生します。この問題が修正されるまで、v23.4 の ML パッケージの使用をお勧めします。

追記 (2023 年 4 月 20 日)

すべてのパイプラインの総合スコアを F1 スコアから精度に変更しました。後方互換性を確保するため、AI Center の評価アーティファクトには精度と F1 スコアの両方が引き続き含まれます。

v23.1.0

DocumentClassifier とエンドポイント

公開日: 2023 年 1 月 11 日

エンドポイントと DocumentClassifier (ドキュメント分類) で公開 | v23.1.0

F1 スコアを改良し、トレーニング パイプラインでも表示されるようにしました。

Artifacts フォルダー内の成果物のリストを更新しました。

Delivery Notes クラスが削除されたため、DocumentClassifier モデルで予測されるクラスが 26 個から 25 個になりました。

v22.12.2

エンドポイント

公開日: 2022 年 12 月 16 日

エンドポイントでの公開 | v22.12.2

UiPath Document OCR のパブリック エンドポイントを更新し、ドイツ語とフランス語の手書き文字のサポートと、デンマーク語、フィンランド語、ノルウェー語、スウェーデン語の活字のサポートを追加しました。

v22.11.0

Document Understanding、データ抽出、エンドポイント

公開日: 2022 年 12 月 13 日

エンドポイント + DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 | v22.11.0

今回のリリースでは、すぐに使える事前トレーニング済みの ML パッケージのパブリック エンドポイントに大幅な改良を行いました。これにより、最新の LayoutLM ベースのディープ ラーニング アーキテクチャが使用されるようになりました。

特に Invoices (請求書) モデルのすべてのドキュメントの種類に対する精度が向上し、列フィールドと表の処理精度も向上しました。

Invoices (請求書) モデルに新しい抽出フィールドとして、Shipping Date (出荷日)、Vendor email address (ベンダーのメール アドレス)、Bank name (銀行名)、Bank account number (銀行の口座番号)、IBAN、SWIFT Code (SWIFT コード)、Bank Address (銀行の住所)、Bank Routing number (銀行のルーティング ナンバー)、Tax rate (税率) を追加しました。抽出フィールドのリストは、こちらのページの各モデルのリンクをクリックして確認できます。

フル パイプラインまたは評価パイプラインだけでなく、トレーニング パイプラインでもモデルのスコアが返されるようになりました。

F1 スコアが列フィールドごとに利用できるようになりました。これまでは、すべての列フィールドのひとまとまりに対してしか利用できませんでした。

v22.10.2

エンドポイント

公開日: 2023 年 2 月 3 日

エンドポイントでの公開 |v22.10.2

すぐに使える事前トレーニング済みの ML パッケージのパブリック エンドポイントを更新し、最先端の LayoutLM Transformers ベースのアーキテクチャを使用するようにしました。

v22.10.0

DocumentUnderstanding、Data Extraction、およびエンドポイント

公開日: 2022 年 10 月 7 日

エンドポイント + DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 | v22.10.0

更新内容と改良点

事前トレーニング済みのモデルである InvoicesAustralia (請求書 - オーストラリア)InvoicesIndia (請求書 - インド)PurchaseOrders (請求書) が公式に追加され、「プレビュー」タグなしで表示されるようになりました。

DeliveryNotes モデルの名称が BillsOfLading に変更されました。

事前トレーニング済みモデルを 10 個追加しました。追加したモデルは、Acord25 (賠償責任保険証明書)1040 (米国の個人所得税申告書)Checks (小切手)Bank Statements (銀行預金残高証明書)Financial statements (財務諸表)Packing Lists (梱包明細書)Acord131 (アンブレラ/エクセス保険)Acord126 (企業総合賠償責任保険)Acord140 (商業保険申込書の財物補償条項)Vehicle Titles (自動車の権利書) です。

バグ修正

上記のパッケージに対していくつかのバグ修正を行いました。

UiPath Document OCR

公開日: 2022 年 10 月 4 日

UiPathDocumentOCR (UiPath ドキュメント OCR) で公開 |v22.10.0 雲

バーコードと QR コードの検出機能を新しく追加しました。

メール アドレスや URL などの長い文字列、固定ピッチ フォント、手書き文字と署名の検出精度が向上しました。

ページの回転検出機能も改良しました。

v22.6.1-preview

DocumentUnderstanding、Data Extraction、およびエンドポイント

公開日: 2022 年 10 月 10 日

エンドポイント + DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 | v22.6.1-preview

今回のリリースでは、DocumentUnderstanding (ドキュメントの理解) およびデータ抽出のパッケージとエンドポイントにいくつかのバグ修正を行いました。

v22.6.0-preview

DocumentUnderstanding (ドキュメントの理解) とデータ抽出

公開日: 2022 年 9 月 6 日

DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 |V22.6.0-preview

AI Center 内の Document Understanding ML パッケージに、さらに高度なモデル アーキテクチャを備えた新しいプレビュー版の ML パッケージを 18 個追加しました。InvoicesPreviewPurchaseOrderPreviewAcord125Preview など、パッケージ名の末尾に「Preview」が付いているため簡単に識別できます。

また、パブリック エンドポイントのリストに新しいプレビュー版の ML パッケージをすべて追加しました。詳しくは、「パブリック エンドポイント」をご覧ください。

なお、これらのプレビュー モデルはお使いのライセンス プランで付与される DU/AI ユニットを消費しません。

プライベート スキルの使用に関する問題を修正し、AI Center インスタンスを使用している組織に属する API キーでのみプライベート スキルを使用できるようにしました。

v22.5.2

DocumentUnderstanding (ドキュメントの理解) とデータ抽出

公開日: 2022 年 7 月 22 日

DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 |v22.5.2

バグ修正

この修正プログラムでは eol classifier メソッドと line_detection のメソッドを組み合わせて単一のメソッドにし、項目の分割が安定して行われるようにしました。

既知の問題

Invoices (請求書) パッケージには既知の問題があり、AI Center で自動微調整ループを実行しようとするとエラーが発生することがあります。

v22.5.1

DocumentUnderstanding、DocumentClassifier、および Data Extraction

公開日: 2022 年 7 月 18 日

DocumentUnderstanding (ドキュメントの理解) + DocumentClassifier (ドキュメント分類) + データ抽出用 ML パッケージでの公開 |v22.5.1

バグ修正

  • 抽出されたフィールドが検証ステーションの間違ったページに表示される問題を修正しました。
  • Document Manager で、一部のページのテキストの最後の行がデジタル化されない問題を修正しました。
  • AI Center のフル パイプライン/評価パイプラインで evaluation_F1_invoices.txt ファイルの F1 スコアの一部の項目が表示されない問題を修正しました。
  • モデルのデータセットに列フィールドしか含まれない場合に、AI Center のフル パイプライン/評価パイプラインで evaluation_F1_invoices.txt file の全体の F1 スコアが誤って計算される問題を修正しました。

v22.5.0

AI Center クラウド、データ抽出

公開日: 2022 年 6 月 16 日

AI Center Cloud で公開、データ抽出用 ML パッケージ |v22.5.0

改良点

すべてのデータ抽出用 ML パッケージのパフォーマンスが向上しました。

v22.4.3

DocumentUnderstanding (ドキュメントの理解) とデータ抽出

公開日: 2022 年 7 月 21 日

DocumentUnderstanding (ドキュメントの理解) + データ抽出用 ML パッケージでの公開 |v22.4.3

この修正プログラムでは eol classifier メソッドと line_detection のメソッドを組み合わせて単一のメソッドにし、項目の分割が安定して行われるようにしました。

v22.4.2

DocumentUnderstanding、DocumentClassifier、および Data Extraction

公開日: 2022 年 7 月 14 日

DocumentUnderstanding (ドキュメントの理解) + DocumentClassifier (ドキュメント分類) + データ抽出用 ML パッケージでの公開 |v22.4.2

バグ修正

  • 抽出されたフィールドが検証ステーションの間違ったページに表示される問題を修正しました。
  • Document Manager で、一部のページのテキストの最後の行がデジタル化されない問題を修正しました。
  • AI Center のフル パイプライン/評価パイプラインで evaluation_F1_invoices.txt ファイルの F1 スコアの一部の項目が表示されない問題を修正しました。
  • モデルのデータセットに列フィールドしか含まれない場合に、AI Center のフル パイプライン/評価パイプラインで evaluation_F1_invoices.txt file の全体の F1 スコアが誤って計算される問題を修正しました。

v22.4.1

AI Center クラウド、データ抽出

公開日: 2022 年 6 月 3 日

AI Center Cloud での公開日、データ抽出用 ML パッケージ |v22.4.1

バグ修正

特別な line_detection mode を使用してトレーニングされたモデルで評価パイプラインを実行した時の予測結果が、ML スキルから呼び出した場合の結果と異なる問題を修正しました。

v22.4.0

DocumentUnderstanding、DocumentClassifier、および Data Extraction

公開日: 2022 年 5 月 10 日

DocumentUnderstanding (ドキュメントの理解) + DocumentClassifier (ドキュメント分類) + データ抽出用 ML パッケージでの公開

| v22.4.0

更新内容

HandwritingRecognitionOCR (手書き文字認識 OCR) の統合により、UiPathDocumentOCR (UiPath ドキュメント OCR) および UiPathDocumentOCR_CPU (UiPath ドキュメント OCR_CPU) パッケージで手書き文字の読み取り機能が使用できるようになりました。この機能は、Studio の UiPath.OCR.LocalServer パッケージにも含まれています。

データ抽出用 ML パッケージのアーキテクチャが新しくなりました。これにより、特に DocumentUnderstanding (ドキュメントの理解) ML パッケージを使用してトレーニングされるモデルに大きなメリットがあります。

ML パッケージ Utility Bills (公共料金請求書)W9 (米国の納税申告書)Passports (パスポート)一般提供 (GA) を開始しました。すぐに使える、事前トレーニング済みの新しい ML パッケージを 5 つ追加しました (プレビュー)。

すぐに使える、事前トレーニング済みの新しい ML パッケージを 5 つ追加しました (プレビュー)。

Document Manager にドキュメント検索機能を追加し、ページ数が多いドキュメントでも簡単にラベル付けが行えるようにしました。

改良点

AI Center のドキュメント抽出用の ML パッケージを改良しました。評価用 Excel スプレッドシートに新しいシートを追加し、評価したデータを整理・解釈しやすくしました。

オフライン インストールの Automation Suite の ML パッケージに、新しいオフライン バンドルを追加しました。

UiPathDocumentOCR (UiPath ドキュメント OCR) の精度とパフォーマンスが向上しました。

バグ修正

列フィールドの日付、トルコ語ドキュメントの日付、遠い未来の日付など、日付フィールドの解析に関する複数の修正を行いました。

v22.2.3

UiPathDocumentUnderstandingOCR

公開日: 2022 年 3 月 7 日

UiPathDocumentOCR (UiPath ドキュメント OCR) で公開 |v22.2.3

機能の向上

HandwritingRecognitionOCRUiPathDocumentOCR に統合しました。多くの場合、ドキュメント内には活字と手書きのテキストのフィールドが混在しています。手書き文字の読み取り機能を統合することにより、活字のフィールドには活字の認識機能を、手書きのテキストのフィールドには手書きのテキストの認識機能を適用できるようになりました。

なお、HandwritingRecognitionOCR がトレーニングされ最適化されているのは英語の手書き文字に対してのみである点にご注意ください。

v22.1.6

DocumentUnderstanding、DocumentClassifier、および Data Extraction

公開日: 2022 年 3 月 14 日

DocumentUnderstanding (ドキュメントの理解) + DocumentClassifier (ドキュメント分類) + データ抽出用 ML パッケージでの公開

| v22.1.6

バグ修正

空の行の前処理における ML パッケージの問題が原因で、AI Center のトレーニング パイプラインまたはフル パイプラインが失敗する問題を修正しました。

v22.1.4

DocumentUnderstanding、DocumentClassifier、および Data Extraction

公開日: 2022 年 3 月 2 日

DocumentUnderstanding (ドキュメントの理解) + DocumentClassifier (ドキュメント分類) + データ抽出用 ML パッケージでの公開 |v22.1.4

更新内容

Utility Bills (公共料金請求書) ML パッケージの一般提供 (GA) を開始しました。

改良点

全体的なパフォーマンスとスケーラビリティが向上しました。

DocumentUnderstanding ML パッケージの新しいバージョンを使用してトレーニングした時のスコアが、以前のバージョンと比較して大幅に向上しました。

列フィールド内の日付が正しく解析されるようになりました。

日付の解析時にトルコ語の月名が認識されるようになりました。

変更箇所

GPU または CPU でトレーニングを行う際のトレーニング パイプラインとフル パイプラインの挙動を変更しました。CPU でトレーニングする v21.10.x のモデルのサイズは以前より小さいため、トレーニングの速度は以前のバージョンに比べて向上しましたが、精度はわずかに低下していました。

今回のリリースではこの挙動を元に戻し、GPU でも CPU でもまったく同じモデルがトレーニングに使用されるようにしました。これにより、トレーニングの速度は v2021.10 より前のモデルの時と同じ速度に戻りました。つまり、CPU でのトレーニングは GPU でのトレーニングよりも 10 倍から 20 倍遅い速度で行われます。

v21.10.11

データ抽出

公開日: 2021 年 11 月 23 日

データ抽出用 ML パッケージでの公開 |v21.10.11

日付の後処理ロジックが原因で、トレーニング パイプラインと評価パイプラインが失敗する問題を修正しました。

v21.10.9

データ抽出

公開日: 2021 年 11 月 24 日

データ抽出用 ML パッケージでの公開 |v21.10.9

実行時に予測エラーが発生する問題を修正しました。

データ抽出とエンドポイント

公開日: 2021 年 10 月 22 日

データ抽出用 ML パッケージとエンドポイントでの公開 |v21.10.9

更新内容

ML パッケージ「PurchaseOrders」の一般提供を開始し、運用環境のシナリオで使用できるようにしました。

ML パッケージ「InvoicesChina」、「DeliveryNotes」、「RemittanceAdvices」、「W2」、「W9」のパブリック プレビューを開始しました。処理するドキュメントの種類に応じて、これらのパッケージを使用することをお勧めします。

改良点

ドキュメント レベルの評価を実装しました。この評価結果は、RPA ワークフローでの実行時のパフォーマンスを表すものです。

評価する ML パッケージのフィールドのうち一部のフィールドしか含まれないデータセットでも、評価を実行できるようになりました。これにより、すぐに使える事前トレーニング済みの ML パッケージの評価が簡単に行えます。

OCR が抽出結果の精度に与える影響を確認するために、評価パイプラインの実行時に OCR を再実行できるようになりました。この操作を行うには、ML パッケージを作成する際に OCR を設定しており、AI Center の評価パイプラインで環境変数 eval.redo_ocr を true に設定する必要があります。

CPU でのトレーニングに小さいモデルを使用するようにし、処理速度を 5 倍から 7 倍向上させました。ただし、CPU でのトレーニングでは精度が 0% から 5% 低下します。

評価パイプラインで生成される Evaluation.xlsx ファイルに、[Minimum Confidence] 列と [Straight Through Processing Rate] 列を追加しました。

ML パッケージ「UtilityBills」を大幅に改良しました。

住所の途中に空白行が 1 行から 2 行含まれている場合の解析処理が向上しました。

負の値、非常に大きい値 (11 桁以上)、未来の日付の抽出に関する改良を行いました。

領収書の回転された状態のボックスがサポートされるようになりました。

連結された範囲の処理機能を強化しました。

バグ修正

  • String 型のフィールド内の特殊文字が返されない問題を修正しました。
  • ML パッケージ「Passports」で、日付が英語の序数 (1st、2nd、3rd、4th など) で書かれていると正しく解析されない問題を修正しました。

既知の問題

現在、ML パッケージ「InvoicesJapan (請求書 - 日本)」と「InvoicesChina (請求書 - 中国)」の再トレーニングを検証ステーションのデータを使用して行うことは、サポートされていません。回避策として、Google Cloud Vision OCR を使用してください。

今後の非推奨化の予定

UiPathDocumentOCRFormExtractorIntelligentFormExtractorIntelligentKeywordClassifier を除くすべてのパブリック エンドポイントは、2021 年 12 月 1 日から西ヨーロッパ以外のリージョンで非推奨になります。

v21.10.5

UiPathDocumentOCR エンドポイント

公開日: 2021 年 12 月 13 日

UiPathDocumentOCR エンドポイントで公開 |v21.10.5

改良点

UiPathDocumentOCR (UiPath ドキュメント OCR) がシンガポール リージョンでも利用できるようになりました。

v21.10.1

UiPathDocumentOCR (UiPath ドキュメント OCR) のデータ抽出とエンドポイント

公開日: 2021 年 9 月 24 日

UiPathDocumentOCR (UiPath ドキュメント OCR) のデータ抽出とエンドポイントで公開 |v21.10.1

改良点

回転したテキストがサポートされるようになりました。回転角度が単語ごとに異なっていても処理できます。

縦書きテキストがサポートされるようになりました。この機能は、現時点では検証ステーションを含む UiPath.IntelligentOCR.Activities でのみ利用可能です。Data Managerマシン ラーニング抽出器ではまだサポートされていません。

領収書、ID カード、パスポートなどのノイズが多い画像や写真の処理精度が向上しました。

v21.10

FormExtractor、IntelligentFormExtractor、IntelligentKeywordClassifier エンドポイント

公開日: 2021 年 12 月 13 日

FormExtractor (フォーム抽出器) + IntelligentFormExtractor (インテリジェント フォーム抽出器) + IntelligentKeywordClassifier (インテリジェント キーワード分類器) をエンドポイントで公開 |V21.10

改良点

FormExtractor (フォーム抽出器)、IntelligentFormExtractor (インテリジェント フォーム抽出器)、IntelligentKeywordClassifier (インテリジェント キーワード分類器) がシンガポール リージョンでも利用できるようになりました。

v21.7

手書き文字認識のデータ抽出とエンドポイント

公開日: 2021 年 8 月 11 日

手書き文字認識のデータ抽出とエンドポイントで公開 |v21.7

改良点

モデルへの 1 回の呼び出しで、複数の部分画像を処理できるようになりました。

モデルの再トレーニングやその他のいくつかの変更を行い、モデルの精度を向上させました。

バグ修正

メモリが残っていないと、ポッドが再起動してしまう問題を修正しました。

v21.6.3

エンドポイントでの UiPathDocumentOCR

Release date: 9 June 2021

UiPathDocumentOCR (UiPath ドキュメント OCR) のエンドポイントで公開 |v21.6.3

改良点

1 桁の数字の検出精度が向上しました。

1 (数字の 1)」、「I (アルファベットのアイ)」および「l (アルファベットのエル)」の 3 種類の文字の検出精度が向上しました。

近接するテキストの検出精度が向上しました。

v21.5.5

データ抽出とエンドポイント

公開日: 2021 年 6 月 18 日

エンドポイントとデータ抽出用 ML パッケージでの公開 |v21.5.5

Data Manager[ドキュメントをデジタル化] アクティビティの予測間の差異を引き起こしていたバグを修正しました。

v21.5.3

データ抽出とエンドポイント

公開日: 2021 年 6 月 8 日

エンドポイントとデータ抽出用 ML パッケージでの公開 |v21.5.3

更新内容

ID カードパスポートのように読み取りづらい画像に対応する、事前トレーニング済みのすぐに使えるパッケージを 2 つリリースしました。

改良点

事前トレーニング済みのすぐに使えるパッケージに、再トレーニング可能な分類フィールドを組み込みました。

v21.4.7

データ抽出とエンドポイント

公開日: 2021 年 4 月 20 日

エンドポイントとデータ抽出用 ML パッケージでの公開 |v21.4.7

データ抽出 ML パッケージの日付解析機能を改良しました。

v21.4.5

データ抽出とエンドポイント

公開日: 2021 年 4 月 15 日

エンドポイントとデータ抽出用 ML パッケージでの公開 |v21.4.5

更新内容

米国リ―ジョンにすべてのパブリック エンドポイントをデプロイしました。

カナダ リージョンと日本リージョンに、[フォーム抽出器]、[インテリジェント フォーム抽出器]、[インテリジェント キーワード分類器] のパブリック エンドポイントをデプロイしました。

v21.4

HandwritingRecognition と DocumentClassifier (ドキュメント分類) のデータ抽出とエンドポイント

公開日: 2021 年 3 月 9 日

HandwritingRecognition、DocumentClassifier、+ UiPathDocumentOCR 用のスタンドアロンの Docker 用のデータ抽出 ML パッケージとエンドポイントで公開 |v21.4

更新内容

HandwritingRecognition (手書き文字認識 ) の一般提供を開始しました。このバージョンでは、スペル修正機能と、マシン上で作成されたテキストの読み取り機能が追加され、認識精度が向上しました。

また、DocumentClassifier (ドキュメント分類) の一般提供を開始しました。

UiPathDocumentOCR (UiPath ドキュメント OCR) の以下の点に改良を加えました。

  • ラジオ ボタン/チェックボックスの検出
  • マーク シートの読み取り精度
  • 全般的な読み取り精度

v21.1.8

データ抽出とエンドポイント

公開日: 2021 年 2 月 17 日

エンドポイントとデータ抽出用 ML パッケージでの公開 |v21.1.8

改良点

精度が向上しました。

InvoicesIndia (請求書 - インド)InvoicesAustralia (請求書 - オーストラリア) の一般提供を開始しました。

オーストラリア地域にパブリック エンドポイントをデプロイしました。

エンドポイントの URL にエディションの引数を含める/指定する必要がなくなりました。たとえば、https://du.uipath.com/ie/invoices は Enterprise とCommunity の両方のトラフィックに対して機能します。

v20.11.3

データ抽出

公開日: 2020 年 12 月 18 日

データ抽出用 ML パッケージでの公開 |v20.11.3

改良点

CPU を改良し、トレーニングの高速化と必要なメモリの低減を実現しました。

米国向け以外のドキュメントに対して、日付解析に関する改善を行いました。

UiPathDocumentOCR (UiPath ドキュメント OCR) でチェックボックス (印刷または手書き) を認識するようにしました。

v20.10.4

データ抽出とエンドポイント

公開日: 2020 年 11 月 10 日

エンドポイントとデータ抽出用 ML パッケージでの公開 |v20.10.4

新機能と改良点

日本語の請求書用に新しいモデルを追加しました。

評価パイプラインが [分類フィールド] のメトリックも返すようになりました。

Microsoft Read OCR v3 をサポートするようになりました。

「日/月/年」と「月/日/年」の日付形式を正しく検出するために、日付の書式設定/解析に改良を加えました。

数字を正しく解析するために、小数点と桁区切り文字の検出に改良を加えました。

CPU でのトレーニングが AI Fabric の全バージョンでサポートされます。

コンテンツの種類が [id-no] のフィールドの解析に改良を加えました。

[分類フィールド] のみのトレーニングをサポートするようになりました ([通常フィールド] または [列フィールド] は含まない)。

許可されているフィールドの最大数が 32 から 40 に増えました。

[列フィールド] の信頼レベルを報告できるようになりました。

既知の問題

AI Center で UiPath.DocumentUnderstanding.ML.Activities パッケージを作成する際、パッケージ名に classbreakfromfinallyglobalNone などの Python の予約語を使用しないでください。なお、パッケージ名は class <pkg-name>import <pkg-name> で使用されるため、前述の予約語は一例であり他の予約語もある点にご注意ください。

Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.