Document Understanding - 重要な概念

document-understanding

2.2510

true

Document Understanding モダンプロジェクトユーザーガイド

重要 :

このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。新しいコンテンツの翻訳は、およそ 1 ～ 2 週間で公開されます。

重要な概念

UiPath® Document Understanding^TM の主要な概念について説明します。

アクティブラーニング

アクティブラーニングは、Document Understanding TM のモデルを作成するための最新のアプローチ^です。

アクティブラーニングは、学習アルゴリズムがユーザーにクエリを実行して、目的の出力でデータにラベルを付けることができる対話型エクスペリエンスを提供します。このプロセスにより、機械学習モデルのトレーニングに必要な時間とデータを最大 80% 削減できます。AI はプロセスをガイドするために使用します。このプロセスには、一般に最も時間のかかるタスクである自動アノテーションが含まれます。このモデルは、最も有益なデータセットを使用して精度を高めるための専門家の推奨事項も提供します。

図 1.アクティブラーニングの仕組み

アクティブラーニングを使用すると、分析機能を使用して自動化を監視することもできます。

ドキュメントの種類

ドキュメントの種類とは、ドキュメントの内容、形式、目的などの識別要因に基づいた分類またはカテゴリのことです。たとえば、請求書、領収書、契約書、レポート、医療記録、法律文書です。

非常に構造化されたコンテンツを持つドキュメントの種類もあれば、主にフリーテキストで構成されるドキュメントの種類もあります。これに基づき、ドキュメントは主に次の 3 つの形式に分類されます。

構造化: 特定の形式の情報を収集するように設計されたドキュメントです。たとえば、アンケート、納税申告書、パスポート、ライセンスはすべて構造化ドキュメントです。
半構造化: 厳密な形式に従わず、指定されたデータフィールドに縛られないドキュメントです。半構造化ドキュメントには、請求書、領収書、公共料金の請求書、銀行預金残高証明書などがあります。
非構造化: 特定のモデルや整理されたモデルに従わないファイルのことです。たとえば、契約書、賃貸契約書、ニュース記事はすべて非構造化ドキュメントです。

ドキュメントの種類について詳しくは、「ドキュメントの種類」セクションをご覧ください。

ML モデル

ML モデルは、データから学習して予測や意思決定を行うようにトレーニングされた仮想アシスタントのようなものです。ML モデルは基本的に、学習することで過去のデータに基づいてパターンを認識するアルゴリズムです。与えるデータが多いほど、時間の経過とともに予測や意思決定を効果的に改善できます。

Document Understanding^TM には、すぐに使える ML モデルがいくつか用意されています。これらのモデルを使用すると、半構造化ドキュメントや非構造化ドキュメントによく見られるデータポイントを分類して抽出できます。セットアップの必要はありません。

事前トレーニング済みのモデルとそのフィールドの完全なリストは、事前トレーニング済みのドキュメントの種類に関するこちらのページをご覧ください。

ML モデルは、OCR によってドキュメントとテキストが高い信頼度で認識される限り、大半の言語でトレーニングできます。

光学文字認識

光学式文字認識 (OCR) は、スキャンした紙のドキュメント、PDF ファイル、デジタルカメラで撮影した画像などのさまざまな種類のドキュメントを、編集や検索が可能なデータに変換するために使用される特別なテクノロジです。

ほとんどの場合、OCR エンジンの精度は元のドキュメントの品質に依存します。通常は、書式が整っていて明瞭なテキストに読みやすいフォントが使われている場合に、最高の出力が生成されます。

UiPath® が提供する OCR エンジンのオプションでサポートされている言語について詳しくは、「 OCR でサポートされている言語」をご覧ください。

アクティブラーニング
ドキュメントの種類
ML モデル
光学文字認識

このページは役に立ちましたか?

前へ基本機能

次へデプロイの種類を選択する

アクティブ ラーニング​

ドキュメントの種類​

ML モデル​

光学文字認識​

このページは役に立ちましたか?

アクティブラーニング

ドキュメントの種類

ML モデル

光学文字認識