- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
Document Understanding ガイド
ドキュメントを検索する
合計で 3 つの検索機能を利用できます。2 つはページ上部の管理バーにあり、1 つはページ左下にあるアイコン を使用します。
管理バーの検索機能は以下で構成されます。
- 組み込みフィルターを使用して検索する: ドロップダウン メニューで選択できるバッチ/カテゴリ オプションに基づいて、ドキュメントをフィルター処理します。
注意:
他のオプションも選択すると、検索をさらに制限できます。たとえば、[Batch import1] と [削除済み] を選択すると、[Batch import1] でインポートされた、削除済みのドキュメントのみが検索されます。
常に空のリストが返される組み合わせに注意してください。[Batch import1] と [Batch import2] を選択すると、ドキュメントは返されません。この選択は制限が厳しく、一度に 2 つのバッチに存在できるドキュメントはないからです。
- キーワードを使用してデータセットのすべてのドキュメント内を検索します。この検索の入力は、テキスト入力に基づいて情報をフィルター処理します。キーワードは、フリー テキストとして検索フィールドに入力する必要があります。ドキュメントの内容またはドキュメント名でキーワードが検索されます。複数語検索では、単語が隣接している場合に結果が返されます (単語間の句読点はすべて除外されます)。
- 現在表示されているドキュメント内を検索します。現在のドキュメント内にのみ存在するテキスト インスタンスを検索できます。検索バー は、画面の左下にあります。
各フィルターでは、条件を満たすドキュメントの数が括弧内に表示されます。
以下に示す 7 つのキーワードが事前定義されています。
- トレーニングと検証セット
- トレーニング セット
- 評価セット
- 検証セット
- Deleted
- ラベルあり
- ラベルなし
フォーム AI で使用できる組み込みフィルターは、[削除済み]、[ラベルあり]、[ラベルなし] のみであることに注意してください。
これらの定義済みのキーワードを使用できるほか、Document Manager にインポートしたバッチの数に応じて、名前付きバッチに基づくフィルター処理を行うこともできます。
- バッチ <batch_name_1>
- バッチ <batch_name_2>
- バッチ <batch_name_3>
- その他
キーワードを、フリー テキストとして検索フィールドに入力する必要があります。ドキュメントの内容またはドキュメント名でキーワードが検索されます。
複数の単語から成るテキストを使用して検索を実行できます。つまり、これらの特定の単語を含むドキュメントだけが 1 つずつ表示されます。
検索では、大文字と小文字が区別されません。
フィルター処理でキーワードを使用できます。たとえば、[ラベルあり] を選択すると、ラベル付きドキュメントだけが表示されます。
フィルター処理では複数のキーワードを使用できます。たとえば、[ラベルあり] と [トレーニング セット] を選択すると、トレーニング済みとマークされたラベル付きドキュメントだけが表示されます。キーワードの表示順序が処理に関係することはありません。
現在のドキュメント内の検索を開始するには、画面左下にあるアイコン をクリックし、検索するテキストを入力して Enter キーを押します。
検索テキストに一致するすべてのテキスト インスタンスが黄色で強調表示され、ドキュメント ビューアーが 1 つ目のインスタンスの位置まで自動的にスクロールされます。テキストのインスタンス間を移動するには、Enter キーを押すか PgDn または PgUp キーを押します。
検索オプションにはドロップダウン メニューがあり、メニューを開くと次のフィルターが表示されます。
- トレーニング セット - モデルのトレーニングに使用するドキュメントの数を示します。自動化された操作自動化された操作です。
- 検証セット - モデルのトレーニングが完了した後にモデルを検証するために使用するドキュメントの数を示します。トレーニング セットと検証セットの分割割合は 80%-20% に設定されます。自動化された操作です。
- トレーニングと検証セット - [トレーニング セット] フィルターと [検証セット] フィルターの両方で検索するドキュメントの数を指定します。自動化された操作自動化された操作です。
- 評価セット - インポート時に [評価セット] チェックボックスがオンになっていて、モデルをトレーニング パイプラインのステージで評価するために使用するドキュメントの数を示します。詳細は、こちらをご覧ください。手動操作です。
- 削除済み - 削除済みのドキュメントの数を指定します。詳細は、こちらをご覧ください。
- ラベルあり - ラベルが付いているドキュメントの数を指定します。ラベルは、ドキュメントあたり少なくとも 1 つのタグ付けされたフィールド/手動で編集したフィールドによって定義されます。
- ラベルなし - ラベルが付いてないドキュメントの数を指定します。
- バッチ名 - 同じインポート アクションで構成されているドキュメントを指定します。
トレーニング セットまたは検証セットへのドキュメントの割り当ては、インポート時にアプリケーションによって行われます。
インポートしたドキュメントは、インポート中に [評価セット] チェックボックスがオンになっている場合、最終的に評価セットに追加されます。