- 概要
- 基本情報
- アクティビティ
- Insights のダッシュボード
- Document Understanding Process
- クイック スタート チュートリアル
- フレームワーク コンポーネント
- ML パッケージ
- 概要
- Document Understanding - ML パッケージ
- DocumentClassifier (ドキュメント分類) - ML パッケージ
- OCR 機能を持つ ML パッケージ
- 1040 (米国の個人所得税申告書) - ML パッケージ
- 1040 Schedule C (米国の個人所得税申告書のスケジュール C) - ML パッケージ
- 1040 Schedule D (米国の個人所得税申告書のスケジュール D) - ML パッケージ
- 1040 Schedule E (米国の個人所得税申告書のスケジュール E) - ML パッケージ
- 1040x (米国の個人所得税修正申告書) - ML パッケージ
- 3949a - ML パッケージ
- 4506T (米国の納税申告証明依頼書) - ML パッケージ
- 709 (米国の贈与税申告書) - ML パッケージ
- 941x (米国の雇用主による四半期連邦税修正申告書) - ML パッケージ
- 9465 (米国の分割納付申請書) - ML パッケージ
- ACORD131 (アンブレラ/エクセス保険) - ML パッケージ
- ACORD140 (商業保険申込書の財物補償条項) - ML パッケージ
- ACORD25 (賠償責任保険証明書) - ML パッケージ
- Bank Statements (銀行預金残高証明書) - ML パッケージ
- BillsOfLading (船荷証券) - ML パッケージ
- Certificate of Incorporation (会社存在証明書) - ML パッケージ
- Certificate of Origin (原産地証明書) - ML パッケージ
- Checks (小切手) - ML パッケージ
- Children's Product Certificate (子供向け製品証明書) - ML パッケージ
- CMS 1500 (米国の医療保険請求フォーム) - ML パッケージ
- EU Declaration of Conformity (EU 適合宣言書) - ML パッケージ
- Financial Statements (財務諸表) - ML パッケージ
- FM1003 (米国の統一住宅ローン申請書) - ML パッケージ
- I9 (米国の就労資格証明書) - ML パッケージ
- ID Cards (ID カード) - ML パッケージ
- Invoices (請求書) - ML パッケージ
- InvoicesAustralia (請求書 - オーストラリア) - ML パッケージ
- InvoicesChina (請求書 - 中国) - ML パッケージ
- Invoices Hebrew (請求書 - ヘブライ語) - ML パッケージ
- InvoicesIndia (請求書 - インド) - ML パッケージ
- InvoicesJapan (請求書 - 日本) - ML パッケージ
- Invoices Shipping (船積送り状) - ML パッケージ
- Packing Lists (梱包明細書) - ML パッケージ
- Payslips (給与明細) - ML パッケージ
- Passports (パスポート) - ML パッケージ
- Purchase Orders (発注書) - ML パッケージ
- Receipts (領収書) - ML パッケージ
- RemittanceAdvices (送金通知書) - ML パッケージ
- UB-04 (健康保険請求フォーム) - ML パッケージ
- Utility Bills (公共料金の請求書) - ML パッケージ
- Vehicle Titles (自動車の権利書) - ML パッケージ
- W2 (米国の源泉徴収票) - ML パッケージ
- W9 (米国の納税申告書) - ML パッケージ
- その他のすぐに使える ML パッケージ
- パブリック エンドポイント
- トラフィック制限
- OCR の設定
- パイプライン
- OCR サービス
- サポートされている言語
- ディープ ラーニング
- ライセンス
Document Understanding ガイド
ドキュメントをインポートする
[データをインポート] ダイアログ ボックスを使用すると、ラベル付けするまたは変更する新しいドキュメントを簡単にインポートできます。
管理バーの [インポート] ボタン をクリックします。
ダイアログ ボックスには、次のコントロールが含まれます。
- [バッチ名] テキスト フィールド - エクスポート名の入力は必須です。入力しないと、[ファイルを参照またはドロップ] セクションが無効化されて表示されます。有効な名前は最大 24 文字で、特殊文字を含めることはできません。
- [これを評価セットにする] チェックボックス - オンにすると、そのデータセットは評価目的で使用されます。
- [ファイルを参照またはドロップ] セクション - [アップロードするファイルを参照] をクリックしてディレクトリを移動するか、フレーム内にファイルをドラッグ アンド ドロップします。
-
[ステータス] セクション - [(以前のインポート ログを読み込み)] をクリックすると、最新のインポートのステータスを確認できます。データのアップロード時、[ステータス] セクションにはファイルの概要を含むメッセージが表示され、[はい] をクリックしてインポートを続行するか、[キャンセル] をクリックしてインポートを中止するかを選択するよう求められます。
Document Manager でサポートされているインポートは次の 4 種類です。
- スキーマのインポート
- 未加工ドキュメントのインポート (1 回のインポートあたり最大 2,000 ページ、4,000 MiB)
- Document Manager のデータセットのインポート (1 回のインポートあたり 4,000 MiB)
- 検証ステーションのデータセットのインポート (1 回のインポートあたり最大 2,000 ページ、4,000 MiB)
既存のセッションと同じスキーマを使用して新しい Document Manager セッションを起動する場合は、次の手順を実行します。
- 管理バーの [エクスポート] ボタンをクリックします。
- [ファイルをエクスポート] ダイアログ ボックスで、[スキーマ] オプションのチェックボックスをオンにします。
- ダイアログ ボックス内の [エクスポート] ボタンをクリックします。
.zip
ファイルがエクスポートされます。 - 管理バーの [インポート] ボタンをクリックします。
.zip
ファイルをアップロードするか、新しい Document Manager セッションに直接ドラッグ アンド ドロップします (展開しない)。この手順では、事前定義されたスキーマをアップロードすることもできます。- [ステータス] セクションで [はい] をクリックしてインポートを続行します。スキーマがインポートされます。
スキーマのインポートは複数値フィールドにも対応します。
.pdf
、.tiff
、.png
、.jpg
です。
.zip
ファイルは、未加工ドキュメントのインポートではサポートされていません。
インポートを行う前に OCR の設定を行う必要があります。
以下の手順を実行します。
.zip
ファイルを取得し、新しい Document Manager インスタンスに直接インポートする必要があります。
新しい Document Manager インスタンスが完全に空の場合 (データがなく、フィールドが定義されていない)、ラベル付けされたドキュメントとスキーマの両方がインポートされます。
新しい Data Manager インスタンスで既にフィールドが定義されている場合は、新しくインポートするデータセットにも同じフィールドか、それらのフィールドのサブセットが含まれている必要があります。そうでない場合、インポートは拒否されます。
- データセット ファイルを展開します。
- アーカイブの
scheman.json
ファイルを編集します。 json
ファイルからすべてのdisplay_name
プロパティを削除し、保存します。- データセットを圧縮し、オンプレミス セッションにインポートします。
サイズの大きいデータセットを分割する
.zip
ファイルを 1 GB 未満で 1500 個未満のファイルを含む、複数の .zip
ファイルに分割します。
RPA ワークフローは既存の ML モデルを使用してドキュメントを処理するので、ドキュメントによっては、[検証ステーション] アクティビティ (有人ボットで、またはブラウザーで Orchestrator Action Center を使用して利用可能) を使用した人間による検証が必要なことがあります。
検証ステーションで生成された検証済みデータは、[マシン ラーニング抽出器トレーナー] アクティビティを使用してエクスポートできます。また、以下で説明する機能を使用して ML モデルをトレーニングするために使用できます。
以下の手順を実行します。
- [マシン ラーニング抽出器トレーナー] アクティビティのデータの出力先を
<Trainer/Output/Folder>
というパス (任意の空のフォルダー パスを使用) のフォルダーに設定します。 - [検証ステーションを提示] アクティビティと [マシン ラーニング抽出器トレーナー] アクティビティを含む RPA ワークフローを実行します。
- [マシン ラーニング抽出器トレーナー] アクティビティは、出力フォルダー内にドキュメント、メタデータ、予測の 3 つのサブフォルダーを作成します。
<Trainer/Output/Folder>
を圧縮して、.zip
ファイルを取得します (例: TrainerOutputFolder.zip)。.zip
ファイルを Document Manager にインポートします。Document Manager は、インポートされたファイルに [マシン ラーニング抽出器トレーナー] アクティビティによって作成されたデータが含まれていることを検出し、それに応じてデータをインポートします。
データセットで必要なフィールドが見つからない場合は、インポート ダイアログ ボックスにエラー メッセージが表示されます。