document-understanding
2022.10
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding ガイド

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
最終更新日時 2024年11月11日

自動微調整ループ (パブリック プレビュー)

ML モデルをトレーニング/再トレーニングするときにまず留意すべきは、最適な結果は、すべてのデータを 1 つの大きな、そして理想的には、慎重にキュレーションされたデータセットに蓄積することによって得られるということです。データセット A でトレーニングしてから、生成されたモデルをデータセット B で再トレーニングした場合の結果は、結合されたデータセット A+B でトレーニングした場合よりもはるかに悪くなります。

2 つ目に留意すべき点は、すべてのデータが同じではないということです。Document Manager などの専用ツールでラベル付けされたデータは、検証ステーションなどの、別の目的で使用されるツールでラベル付けされたデータよりも一般に質が高いため、より優れたパフォーマンスのモデルが生成されます。検証ステーションから得られるデータは、業務プロセスの観点からは高品質かもしれませんが、モデルのトレーニングの観点から見るとそれほど高品質ではありません。ML モデルは独特の形式のデータを必要としており、それはほとんどの場合、業務プロセスで必要な形式とは異なるためです。たとえば、10 ページの請求書では請求書番号が各ページに表示されている可能性がありますが、検証ステーションでは最初のページで指定すれば十分であるのに対して、Document Manager ではすべてのページでラベル付けを行います。この場合、正しいラベルの 90% が検証ステーションのデータに存在しないことになります。以上の理由から、検証ステーションのデータの有用性は前述のとおり限定的といえます。

ML モデルを効果的にトレーニングするには、包括的、高品質、かつ代表的な単一のデータセットが必要です。そのため、累積的アプローチでは、追加のデータを入力データセットに加えて、毎回 ML モデルをより大きなデータセットでトレーニングします。これを行う方法の 1 つに、自動再トレーニング ループの使用が挙げられます。

この機能をよりよく理解するために、自動微調整機能が ML モデルのライフサイクルのどこで適用されるかを見てみましょう。

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.