- 概要
- 基本情報
- モデルを構築する
- モデルを使用する
- 詳細
- パブリック エンドポイント
- 1040 - document type
- 1040 Schedule C - document type
- 1040 Schedule D - document type
- 1040 Schedule E - document type
- 1040x - document type
- 3949a - document type
- 4506T - document type
- 709 - document type
- 941x - document type
- 9465 - document type
- ACORD125 - document type
- ACORD126 - document type
- ACORD131 - document type
- ACORD140 - document type
- ACORD25 - document type
- Bank Statements - document type
- Bills Of Lading - document type
- Certificate of Incorporation - document type
- Certificate of Origin - document type
- Checks - document type
- Children Product Certificate - document type
- CMS 1500 - document type
- EU Declaration of Conformity - document type
- Financial Statements - document type
- FM1003 - document type
- I9 - document type
- ID Cards - document type
- Invoices - document type
- Invoices Australia - document type
- Invoices China - document type
- Invoices Hebrew - document type
- Invoices India - document type
- Invoices Japan - document type
- Invoices Shipping - document type
- Packing Lists - document type
- Payslips - document type
- Passports - document type
- Purchase Orders - document type
- Receipts - document type
- Receipts Japan - document type
- Remittance Advices - document type
- UB04 - document type
- Utility Bills - document type
- Vehicle Titles - document type
- W2 - document type
- W9 - document type
- サポートされている言語
- Insights のダッシュボード
- データおよびセキュリティ
- ライセンス
- 使い方
- トラブルシューティング

Document Understanding モダン プロジェクト ユーザー ガイド
重要な概念
UiPath® Document UnderstandingTM の主要な概念について説明します。
アクティブ ラーニングは、Document UnderstandingTM のモデルを作成するための最新のアプローチです。
アクティブ ラーニングは、学習アルゴリズムがユーザーにクエリを実行して、目的の出力でデータにラベルを付けることができる対話型エクスペリエンスを提供します。このプロセスにより、機械学習モデルのトレーニングに必要な時間とデータを最大 80% 削減できます。AI はプロセスをガイドするために使用します。このプロセスには、一般に最も時間のかかるタスクである自動アノテーションが含まれます。このモデルは、最も有益なデータセットを使用して精度を高めるための専門家の推奨事項も提供します。
アクティブ ラーニングを使用すると、分析機能を使用して自動化を監視することもできます。
ドキュメントの種類とは、ドキュメントの内容、形式、目的などの識別要因に基づいた分類またはカテゴリのことです。たとえば、請求書、領収書、契約書、レポート、医療記録、法律文書です。
- 構造化: 特定の形式の情報を収集するように設計されたドキュメントです。たとえば、アンケート、納税申告書、パスポート、ライセンスはすべて構造化ドキュメントです。
- 半構造化: 厳密な形式に従わず、指定されたデータ フィールドに縛られないドキュメントです。半構造化ドキュメントには、請求書、領収書、公共料金の請求書、銀行預金残高証明書などがあります。
- 非構造化: 特定のモデルや整理されたモデルに従わないファイルのことです。たとえば、契約書、賃貸契約書、ニュース記事はすべて非構造化ドキュメントです。
ドキュメントの種類について詳しくは、「ドキュメントの種類」セクションをご覧ください。
生成 AI は AI 技術の一形態であり、マシン ラーニング (ML) モデルを利用して新しいコンテンツ、データ、情報を作成および生成します。
生成 AI のほとんどのタスクにおいて鍵となるのは、大規模言語モデル (LLM) です。LLM は、膨大な量のテキスト データでトレーニングされ、人間が作成するようなテキストを生成することを目的に設計された ML モデルです。また、文や段落を人間のように作成することにより、プロンプトを理解して応答することもできます。
- 情報の抽出: 生成 AI モデルを使用して、非構造化ドキュメントまたは半構造化ドキュメントから特定の情報を抽出できます。たとえば、請求書を調べて、日付、請求金額、会社名などの詳細を取得できます。
- ドキュメントの分類: ML モデルを使用し、ドキュメントを内容に基づいて自動分類します。アルゴリズムによってドキュメントを「読み取り」、そのコンテキストを理解し、定義済みのカテゴリに分類できます。
- データの検証: 信頼度スコアが低すぎる場合、生成 AI で ML モデルの出力を確認できます。両方の ML モデル (生成モデルと特化型モデル) の出力が同じであれば、人間がそのドキュメントを検証する必要はありません。これにより、ドキュメントの検証にかける時間を短縮できると同時に、2 つ目の生成モデルを使用して出力を確認することによってモデルのパフォーマンスを改善できます。
ML モデルは、データから学習して予測や意思決定を行うようにトレーニングされた仮想アシスタントのようなものです。ML モデルは基本的に、学習することで過去のデータに基づいてパターンを認識するアルゴリズムです。与えるデータが多いほど、時間の経過とともに予測や意思決定を効果的に改善できます。
Document UnderstandingTM には、すぐに使える ML モデルがいくつか用意されています。これらのモデルを使用すると、半構造化ドキュメントや非構造化ドキュメントによく見られるデータ ポイントを分類して抽出できます。セットアップの必要はありません。
Check the Pre-trained document types page for the full list of pre-trained models and their fields.
ML モデルは、OCR によってドキュメントとテキストが高い信頼度で認識される限り、大半の言語でトレーニングできます。
光学式文字認識 (OCR) は、スキャンした紙のドキュメント、PDF ファイル、デジタル カメラで撮影した画像などのさまざまな種類のドキュメントを、編集や検索が可能なデータに変換するために使用される特別なテクノロジです。
ほとんどの場合、OCR エンジンの精度は元のドキュメントの品質に依存します。通常は、書式が整っていて明瞭なテキストに読みやすいフォントが使われている場合に、最高の出力が生成されます。
UiPath® が提供する OCR エンジンのオプションでサポートされている言語について詳しくは、「OCR でサポートされている言語」をご覧ください。