document-understanding
2024.10
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
Document Understanding のリリース ノート
公開日: 2024 年 11 月 11 日
Document Understanding™ 2024.10 LTS リリース
更新内容
UiPath Extended Languages OCR
UiPath の最新の OCR エンジンである UiPath Extended Languages OCR の一般提供を開始しました。この新しい OCR では 200 以上の言語のドキュメントをデジタル化することができ、特に中国語、日本語、韓国語に関して前モデルよりも大幅に改良されています。さらに、タイ語、ベトナム語、インドのすべての主要言語、およびキリル文字のアルファベットとギリシャ語のドキュメントも処理できます。
データ抽出 ML パッケージ
以下の新しい ML パッケージが新しく利用できるようになりました。
- 709 (米国の贈与税申告書)
- 941× (米国の雇用主による四半期連邦税修正申告書)
- 9465 (米国の分割納付申請書)
- 1040× (米国の個人所得税修正申告書)
- 3949a (米国の課税・徴収漏れに関する情報提供フォーム)
- Invoices (請求書) (ヘブライ語)
改良点
データ抽出 ML パッケージ
ドキュメントのデジタル化プロセスを大幅に改良しました。これにより、UiPath Extended Languages OCR の使用時に、個々の文字のボックスではなく通常の単語ボックスが出力されるようになりました。
UiPath Document Understanding OCR
- 今回のリリースでは、手書き文字認識の精度とパフォーマンスが向上しました。
- 磁気インク文字認識 (MIRC) の認識と検出が改良され、特に小切手において精度が向上しました。
- 以前は、スペースが区切り文字として使用されていると、数字が認識されないことがありました。今回のリリースから、スペースが区切り文字として使用されていても数字が認識されるようになりました。
- 特に低品質の画像で使用した場合に、UiPath Document Understanding OCR の信頼度スコアが向上しました。ドキュメントを Action Center で人間が検証する必要があるかどうかを、信頼度スコアを使用して判断するワークフローでは、これにより、検証するドキュメントの数が増える可能性があります。
バグ修正
UiPath Document Understanding OCR
一部のドキュメントがわずかに歪んでいてもアノテーション ボックスが水平方向に返され、アノテーションの配置がずれる問題を修正しました。
データ抽出 ML パッケージ
Extended Languages OCR の使用時における、日本語のテキストに関係する問題を修正しました。文字ボックスが個別であるために、この問題によって特定の状況で余分なスペースが複数表示されていました。