document-understanding
latest
false
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。
Document Understanding ガイド
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年10月21日

チェックボックスと署名

チェックボックスと署名は、契約上の合意から登録フォームまで、さまざまな種類のドキュメントで重要な役割を果たす 2 つの要素です。モデルを最大限に活用するには、チェックボックスと署名に正しくアノテーションを行う方法を理解することが重要です。

チェックボックス

ドキュメントにアノテーションを行う場合、チェックボックスを使用する複数選択フィールドには、いくつか種類があります。
  • 相互に排他的なチェックボックス
  • 相互に排他的ではないチェックボックス (複数のオプションを選択可能)

考慮すべき重要な点は、特定の複数選択フィールドで提供されている選択肢の数です。オプションが 1 個だけで、チェックボックスがオンかオフのいずれかしかない場合もありますが、多くの場合は、健康診断書のように、オプションが 10 個から 20 個、あるいはそれ以上あり、グリッドや表の形式で構成されていることがほとんどです。

このような多様な複数選択フィールドにアノテーションを行うという観点では、主に 4 つの方法を使用できます。

オプションにアノテーションを行う

例を見ながら、オプションにアノテーションを行う方法を理解していきましょう。

注: オプションにアノテーションを行う前に、関連する各オプションに対して標準フィールドを作成していることを確認してください。


ドキュメントに年のオプションが含まれている状況を考えてみましょう。このようなシナリオでは、フィールドは 1 つだけで、選択されている単語にのみアノテーションを行います。たとえば、2018 の横のチェックボックスがオンになっている場合は 2018 にアノテーションを行い、2019 のオプションが選択されている場合は 2019 にアノテーションを行います。どちらのオプションも選択されていない場合は、どちらにもアノテーションを行うべきではありません。両方のオプションがオンになるシナリオはあり得ません。そのような例が含まれるドキュメントはセットから除外する必要があります。


このアプローチのメリットは、フィールドが 1 つあれば良く、必要なデータが少ないところです。また、チェックボックスの検出の成否に依存することもありません。たとえば、チェックボックスが誤って X という文字として検出されても、モデルはその X の意味が、その横にあるオプションがオンになっていることだと学習して認識できます。

潜在的なデメリットとしては、両方のオプションがだいたい等しく表されていることを確認する必要があります。常にそうなっているとは限りません。たとえば、データセット内のドキュメントの 90% で 2018 にチェックマークが付いている場合、モデルのパフォーマンスが影響を受け、このアプローチは失敗する可能性があります。オプションが多いほど問題は悪化します。一部のオプションはほとんどの場合、まれであるためです。このような場合には、まれなオプションにチェックマークを付けた偽のドキュメントを作成して、バランスを取る必要があるかもしれません。

それぞれ別個のフィールドを持つチェックボックスにアノテーションを行う

注: オプションにアノテーションを行う前に、関連する各オプションに対して標準フィールドを作成していることを確認してください。


前の例で、異なるフィールドを 2 つ作成しました。1 つは 2018 というラベルが付いたフィールドで、その年に対応するチェックボックスに一貫してアノテーションを行いました。もう 1 つは 2019 というラベルの付いたフィールドで、2019 年に対応するチェックボックスに、オン/オフに関係なくアノテーションを行いました。この方法のメリットは、バランスがそれほど重要ではないところです。どちらかの選択肢が 90% の確率で選択されるとしても、チェックボックスの位置は固定されているので、モデルは今までどおり学習してオプションを識別できます。

デメリットは、フィールドが 1 つではなく 2 つになることです。処理するオプションが 2 つであれば大した問題ではないかもしれませんが、処理するオプションが 10 個から 20 個になり、その結果、1 つではなく 10 個から 20 個のフィールドを作成すると、アノテーション プロセスが大幅に複雑になる可能性があります。さらに、モデルのトレーニング プロセスも困難になり、必要なトレーニング データも増えます。

もう 1 つのデメリットは、チェックボックスが間違って検出される場合があることです。この場合、返される文字 X、V、K のすべてを管理するために、より複雑なロジックをワークフローに追加しなければならない可能性があります。場合によっては、OCR でチェックボックスがその横にある単語と結合されてしまい、X2018 のようになることもあります。この状況に対処するには、さらに複雑な RPA ロジックが必要です。



単一の複数値フィールドを持つチェックボックスにのみアノテーションを行う

注: この方法を使用するには、複数値フィールドを作成し、それを使用してチェックボックスにアノテーションを行います。


複数値フィールドを使用すると、アノテーションが容易になります。また、複数値フィールドは、オンになっているオプションのバランスが取れていなかったり、選択されるオプションが広範であったりしても影響を受けません。ただし、複数値フィールドであっても、チェックボックスの検出精度や、チェックボックスが隣接するオプションと結合されるリスクの影響を受けることに変わりはありません。OCR エラーを防ぐのは非常に困難です。



単一の複数値フィールドを持つオプションにアノテーションを行う

注: この方法を使用するには、複数値フィールドを作成し、それを使用してチェックボックスにアノテーションを行います。


この方法でも、アノテーション プロセスが簡素化され、チェックボックス検出エラーの影響を受けにくくなります。ただし、バランスの悪いオプションの影響を受けやすくなる可能性があります。

これらのすべてのオプションは、特定の状況では適切な場合があります。最初は、1 つ目のオプションを推奨します。UiPath® Document OCR のチェックボックス検出精度が向上してきたら、オプション 2 と 3 を推奨します。



署名の検出

UiPath Document OCR を使用して署名を識別し、ML モデルで署名を直接検出できます。

ドキュメント内の他のフィールドと同じように署名にアノテーションを行います。UiPath Document OCR によって署名が識別されると、ML モデルはこのフィールドを署名として認識するよう学習します。

推論時に、署名はドキュメントに表示されているとおりに取得されます。RPA ロジックを使用して、これを Boolean フィールド (Yes/No) に変換する必要があります。

このページは役に立ちましたか?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
Uipath Logo White
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.