Document Understanding ガイド

デリバリー:

最終更新日時 2025年9月15日

チェックボックスと署名

チェックボックスと署名は、契約上の合意から登録フォームまで、さまざまな種類のドキュメントで重要な役割を果たす 2 つの要素です。モデルを最大限に活用するには、チェックボックスと署名に正しくアノテーションを行う方法を理解することが重要です。

チェックボックス

ドキュメントにアノテーションを行う場合、チェックボックスを使用する複数選択フィールドには、いくつか種類があります。

相互に排他的なチェックボックス
相互に排他的ではないチェックボックス (複数のオプションを選択可能)

考慮すべき重要な点は、特定の複数選択フィールドで提供されている選択肢の数です。オプションが 1 個だけで、チェックボックスがオンかオフのいずれかしかない場合もありますが、多くの場合は、健康診断書のように、オプションが 10 個から 20 個、あるいはそれ以上あり、グリッドや表の形式で構成されていることがほとんどです。

このような多様な複数選択フィールドにアノテーションを行うという観点では、主に 2 つの方法を使用できます。

オプションにアノテーションを行う

例を見ながら、オプションにアノテーションを行う方法を理解していきましょう。

注: オプションにアノテーションを行う前に、関連する各オプションに対して標準フィールドを作成していることを確認してください。

ドキュメントに年のオプションが含まれている状況を考えてみましょう。このようなシナリオでは、フィールドは 1 つだけで、選択されている単語にのみアノテーションを行います。たとえば、2018 の横のチェックボックスがオンになっている場合は 2018 にアノテーションを行い、2019 のオプションが選択されている場合は 2019 にアノテーションを行います。どちらのオプションも選択されていない場合は、どちらにもアノテーションを行うべきではありません。両方のオプションがオンになるシナリオはあり得ません。そのような例が含まれるドキュメントはセットから除外する必要があります。

このアプローチのメリットは、フィールドが 1 つあれば良く、必要なデータが少ないところです。また、チェックボックスの検出の成否に依存することもありません。たとえば、チェックボックスが誤って X という文字として検出されても、モデルはその X の意味が、その横にあるオプションがオンになっていることだと学習して認識できます。

潜在的なデメリットとしては、両方のオプションがだいたい等しく表されていることを確認する必要があります。常にそうなっているとは限りません。たとえば、データセット内のドキュメントの 90% で 2018 にチェックマークが付いている場合、モデルのパフォーマンスが影響を受け、このアプローチは失敗する可能性があります。オプションが多いほど問題は悪化します。一部のオプションはほとんどの場合、まれであるためです。このような場合には、まれなオプションにチェックマークを付けた偽のドキュメントを作成して、バランスを取る必要があるかもしれません。