UiPath Documentation
document-understanding
2.2510
true
重要 :
このコンテンツの一部は機械翻訳によって処理されており、完全な翻訳を保証するものではありません。 新しいコンテンツの翻訳は、およそ 1 ~ 2 週間で公開されます。
UiPath logo, featuring letters U and I in white

Document Understanding modern projects user guide

最終更新日時 2026年4月6日

重要な概念

Familiarize yourself with the core concepts around UiPath® Document UnderstandingTM.

アクティブ ラーニング

Active learning is our modern approach to creating models for Document UnderstandingTM.

アクティブ ラーニングは、学習アルゴリズムがユーザーにクエリを実行して、目的の出力でデータにラベルを付けることができる対話型エクスペリエンスを提供します。このプロセスにより、機械学習モデルのトレーニングに必要な時間とデータを最大 80% 削減できます。AI はプロセスをガイドするために使用します。このプロセスには、一般に最も時間のかかるタスクである自動アノテーションが含まれます。このモデルは、最も有益なデータセットを使用して精度を高めるための専門家の推奨事項も提供します。

Figure 1. How does Active Learning work ML (マシン ラーニング) モデルを改善するためのアクティブ ラーニングのワークフローを示す図です。このプロセスは ML モデルから始まり、そこでパフォーマンスが評価されます。アクティブ ラーニングにより、モデルのパフォーマンス向上にとって最も有益なデータ ポイントが特定されます。これらのデータ ポイントが「人間によるアノテーション」のステップに送られ、手動でレビューされます。続いて、アノテーションを使用して ML モデルを再トレーニングして再デプロイし、継続的な改善のためのフィードバック ループを作成します。矢印は、ML モデル、アクティブ ラーニング、人間によるアノテーションの間の流れを示します。

アクティブ ラーニングを使用すると、分析機能を使用して自動化を監視することもできます。

ドキュメントの種類

ドキュメントの種類とは、ドキュメントの内容、形式、目的などの識別要因に基づいた分類またはカテゴリのことです。たとえば、請求書、領収書、契約書、レポート、医療記録、法律文書です。

非常に構造化されたコンテンツを持つドキュメントの種類もあれば、主にフリー テキストで構成されるドキュメントの種類もあります。これに基づき、ドキュメントは主に次の 3 つの形式に分類されます。

  • Structured: documents designed to collect information in a specific format. For example, surveys, tax forms, passports, or licenses are all structured documents.
  • Semi-structured: documents that do not follow a strict format and are not bound to specified data fields. Semi-structured documents include invoices, receipts, uility bills, bank statements, and others.
  • Unstructured: documents that do not follow a specific or organized model. For example, contracts, leases, or news articles are all unstructured documents.

To learn more about document types, check the Document types section.

ML モデル

ML モデルは、データから学習して予測や意思決定を行うようにトレーニングされた仮想アシスタントのようなものです。ML モデルは基本的に、学習することで過去のデータに基づいてパターンを認識するアルゴリズムです。与えるデータが多いほど、時間の経過とともに予測や意思決定を効果的に改善できます。

You can find several out of the box ML models in Document UnderstandingTM. These models help you classify and extract any commonly occurring data points from semi-structured or unstructured documents, with no setup required.

Check the Pre-trained document types page for the full list of pre-trained models and their fields.

ML モデルは、OCR によってドキュメントとテキストが高い信頼度で認識される限り、大半の言語でトレーニングできます。

光学文字認識

光学式文字認識 (OCR) は、スキャンした紙のドキュメント、PDF ファイル、デジタル カメラで撮影した画像などのさまざまな種類のドキュメントを、編集や検索が可能なデータに変換するために使用される特別なテクノロジです。

ほとんどの場合、OCR エンジンの精度は元のドキュメントの品質に依存します。通常は、書式が整っていて明瞭なテキストに読みやすいフォントが使われている場合に、最高の出力が生成されます。

For more information on the languages supported by the OCR engines options provided by UiPath®, check the OCR Supported Languages page.

このページは役に立ちましたか?

接続

ヘルプ リソース サポート

学習する UiPath アカデミー

質問する UiPath フォーラム

最新情報を取得