- Überblick
- Verträge zur Dokumentverarbeitung
- Versionshinweise
- Über die DocumentProcessing-Verträge
- Box-Klasse
- IPersistedActivity-Schnittstelle
- PrettyBoxConverter-Klasse
- IClassifierActivity-Schnittstelle
- IClassifierCapabilitiesProvider-Schnittstelle
- ClassifierDocumentType-Klasse
- ClassifierResult-Klasse
- ClassifierCodeActivity-Klasse
- ClassifierNativeActivity-Klasse
- ClassifierAsyncCodeActivity-Klasse
- ClassifierDocumentTypeCapability-Klasse
- ExtractorAsyncCodeActivity-Klasse
- ExtractorCodeActivity-Klasse
- ExtractorDocumentType-Klasse
- ExtractorDocumentTypeCapabilities-Klasse
- ExtractorFieldCapability-Klasse
- ExtractorNativeActivity-Klasse
- ExtractorResult-Klasse
- ICapabilitiesProvider-Schnittstelle
- IExtractorActivity-Schnittstelle
- ExtractorPayload-Klasse
- DocumentActionPriority-Enumeration
- DocumentActionData-Klasse
- DocumentActionStatus-Enumeration
- DocumentActionType-Enumeration
- DocumentClassificationActionData-Klasse
- DocumentValidationActionData-Klasse
- UserData-Klasse
- Document-Klasse
- DocumentSplittingResult-Klasse
- DomExtensions-Klasse
- Page-Klasse
- PageSection-Klasse
- Polygon-Klasse
- PolygonConverter-Klasse
- Metadatenklasse
- WordGroup-Klasse
- Word-Klasse
- ProcessingSource-Enumeration
- ResultsTableCell-Klasse
- ResultsTableValue-Klasse
- ResultsTableColumnInfo-Klasse
- ResultsTable-Klasse
- Rotation-Enumeration
- SectionType-Enumeration
- WordGroupType-Enumeration
- IDocumentTextProjection-Schnittstelle
- ClassificationResult-Klasse
- ExtractionResult-Klasse
- ResultsDocument-Klasse
- ResultsDocumentBounds-Klasse
- ResultsDataPoint-Klasse
- ResultsValue-Klasse
- ResultsContentReference-Klasse
- ResultsValueTokens-Klasse
- ResultsDerivedField-Klasse
- ResultsDataSource-Enumeration
- ResultConstants-Klasse
- SimpleFieldValue-Klasse
- TableFieldValue-Klasse
- DocumentGroup-Klasse
- DocumentTaxonomy-Klasse
- DocumentType-Klasse
- Field-Klasse
- FieldType-Enumeration
- LanguageInfo-Klasse
- MetadataEntry-Klasse
- TextType-Aufzählung
- TypeField-Klasse
- ITrackingActivity-Schnittstelle
- ITrainableActivity-Schnittstelle
- ITrainableClassifierActivity-Schnittstelle
- ITrainableExtractorActivity-Schnittstelle
- TrainableClassifierAsyncCodeActivity-Klasse
- TrainableClassifierCodeActivity-Klasse
- TrainableClassifierNativeActivity-Klasse
- TrainableExtractorAsyncCodeActivity-Klasse
- TrainableExtractorCodeActivity-Klasse
- TrainableExtractorNativeActivity-Klasse
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding-Prozess – Studio-Vorlage
- Document Understanding
- Versionshinweise
- Über das Document Understanding-Aktivitätspaket
- Projektkompatibilität
- Dokumentdaten
- PDF-Passwort festlegen
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- PDF-Seitenbereich extrahieren
- Extract Document Data
- Validierungsaufgabe erstellen und warten
- Wait for Validation Task and Resume
- Create Validation Task
- Dokument klassifizieren (Classify Document)
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Wait For Classification Validation Task And Resume
- IntelligentOCR
- Versionshinweise
- Über das IntelligentOCR-Aktivitätspaket
- Projektkompatibilität
- Taxonomie laden (Load Taxonomy)
- Digitalisieren von Dokumenten
- Dokumentbereich klassifizieren (Classify Document Scope)
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Intelligenter Schlüsselwortklassifizierer
- Present Classification Station
- Create Document Validation Action
- Wait For Document Classification Action And Resume
- Klassifizierer-Scope trainieren
- Keyword Based Classifier Trainer
- Intelligent Keyword Classifier Trainer
- Datenextraktionsumfang
- Regex Based Extractor
- Form Extractor
- Extraktor für intelligente Formulare
- Aktuelle Validierungsstation
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Train Extractors Scope
- Extraktionsergebnisse exportieren
- ML-Services
- OCR
- OCR-Verträge
- Versionshinweise
- Über die OCR-Verträge
- Projektkompatibilität
- IOCRActivity-Schnittstelle
- OCRAsyncCodeActivity-Klasse
- OCRCodeActivity-Klasse
- OCRNativeActivity-Klasse
- Character-Klasse
- OCRResult-Klasse
- Word-Klasse
- FontStyles-Enumeration
- OCRRotation-Enumeration
- OCRCapabilities-Klasse
- OCRScrapeBase-Klasse
- OCRScrapeFactory-Klasse
- ScrapeControlBase-Klasse
- ScrapeEngineUsages-Enumeration
- ScrapeEngineBase
- ScrapeEngineFactory-Klasse
- ScrapeEngineProvider-Klasse
- OmniPage
- PDF
- [Nicht aufgeführt] Abbyy
- Versionshinweise
- Über das Abbyy-Aktivitätspaket
- Projektkompatibilität
- Abbyy OCR
- Abbyy Cloud OCR
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Dokument klassifizieren (Classify Document)
- Dokument verarbeiten (Process Document)
- Dokument validieren (Validate Document)
- Dokument exportieren (Export Document)
- Feld erhalten (Get Field)
- Tabelle erhalten (Get Table)
- Vorbereiten der Validierungsstationsdaten
- [Nicht aufgeführt] Abbyy Embedded
Dokumentdaten
Dokumentdaten ist eine Ressource, die sowohl als Eingabe- als auch als Ausgabevariable in Ihren Document Understanding-Workflows dient. Das Objekt Dokumentdaten enthält alle erforderlichen Informationen zu einem einzelnen Dokument. Wenn Sie ein Dokument klassifizieren, enthält das Objekt den Dokumenttyp. Wenn Sie Daten extrahieren, enthält das Objekt die entsprechenden extrahierten Felder. Unabhängig von der Aktivität enthalten Dokumentdaten konsistent den Text des Dokuments und das DOM (Dokumentobjektmodell).
Mit Dokumentdaten können Sie: Alle erforderlichen Informationen zu einem Dokument in einer Variablen sammeln, Daten zu jeder Eigenschaft des Objekts speichern und für andere Aktivitäten im Workflow wiederverwenden.
Dokumentdaten enthält Informationen zu den folgenden Attributen:
- Dokumenttyp: Stellt Daten zum identifizierten Dokumenttyp bereit, der durch Aktivitäten wie Classify Document oder Create Classification Validation Task aufgefülltwird
- Daten: Enthält die extrahierten Feldwerte, die von Aktivitäten wie Extract Document Data oder Create Document Validation Task aufgefülltwerden
- Dateidetails: Enthält Details zum
IResource
. - SubDocuments: Enthält eine Sammlung von Dokumentdaten, die von Aktivitäten wie Create Classification Validation Task aufgefüllt werden.
- Dokumentmetadaten: Enthält Informationen zur Verarbeitung des Dokuments, z. B.:
- Text in Sprache erkannt
- Extrahierte Felder als Datentabelle
- Dokumentobjektmodell (DOM): Enthält das Dokumentobjektmodell, das von allen Aktivitäten verwendet wird.
Tipp: Wenn eine Aktivität nicht die erste Document Understanding-Aktivität ist, die Teil eines Studio-Workflows ist, verwenden Sie Dokumentdaten als Eingabe. Verwenden Sie die Variable Datei nur dann als Eingabe, wenn die Aktivität der erste Document Understanding-Teil eines Studio Workflows ist.
Die Eigenschaften der Dokumentdatenvariablen können von einer oder mehreren Aktivitäten aufgefüllt und verbraucht werden. Je nach Aktivität, die die Variable auffüllt, können sich die Eigenschaften unterscheiden.
Attributname | Eigenschaften | Beschreibung | Aktivitäten, die den Wert auffüllen |
---|---|---|---|
Document Type | Anzeigename (wird für benutzerdefinierte Modelle verwendet) | Name des Dokumenttyps | Dokument klassifizieren (Classify Document) |
ID (wird für vorgefertigte Modelle verwendet) | Name des Dokumenttyps | ||
Confidence | Klassifizierungskonfidenz | ||
URL | URL, über die der Zugriff auf den Dokumenttyp möglich ist; dies kann entweder benutzerdefiniert oder vordefiniert sein und wird über das jeweilige Projekt im Document Understanding-Center referenziert. | ||
Felder | Feldwert | Extraktionswert des Felds | |
Extraktionskonfidenzwert | Konfidenzbewertung der Extraktion, wie vom Modell bereitgestellt | ||
OCR-Konfidenzwert | Konfidenzbewertung, die vom OCR-Modul bereitgestellt wird | ||
Dateidetails | VollerName | Der vollständige Name der Datei | Aktivitäten, die das Dokumentdatenobjekt erstellen und eine Datei als Eingabe empfangen |
Erweiterung | Erweiterung der Datei | ||
Seitenbereich | Seitenbereich der Datei | ||
Unterdokumente | Nicht zutreffend | Erfassung von Dokumentdaten
Hinweis: Dieser Bereich ist derzeit noch nicht ausgefüllt und wird in Zukunft zusammen mit der Klassifizierungsvalidierung und den Aufteilungsfunktionen hinzugefügt werden.
| Dokument klassifizieren (Classify Document) |
Metadata | Nicht zutreffend | Informationen zur Verarbeitung des Dokuments | Aktivitäten, die das Dokumentdatenobjekt erstellen und eine Datei als Eingabe empfangen. |
DOM | Nicht zutreffend | Das Dokumentobjektmodell, das von allen Aktivitäten verwendet wird | |
Text | Nicht zutreffend | Gesamter extrahierter Text | |
Sprache erkennen | Nicht zutreffend | Die im Dokument erkannte Sprache | |
Konfidenz aufteilen | Nicht zutreffend | Wenn das Dokument aufgeteilt wird, wird das Dokument vom Aufteilungsmodell zurückgegeben
Hinweis: Dieser Bereich ist derzeit noch nicht ausgefüllt und wird in Zukunft zusammen mit der Klassifizierungsvalidierung und den Aufteilungsfunktionen hinzugefügt werden.
| Dokument klassifizieren (Classify Document) |
Ergebnisse als Datentabelle | Nicht zutreffend | Felder, die als Datentabelle exportiert wurden | Extract Document Data |
Wenn Sie Dokumentdaten verwenden, wird das erste Ausgabeobjekt aus Ihrer Eingabedatei erstellt. Nachdem Sie dieses Objekt erstellt haben, empfehlen wir Ihnen, es an Ihre nächsten Aktivitäten weiterzugeben. Wenn Sie es an Ihre nächsten Aktivitäten übergeben, können Sie den Text und das DOM aus Ihrer ursprünglichen Datei wiederverwenden. Dieser Ansatz erspart Ihnen jedes Mal die Datei neu zu digitalisieren.
Wenn Sie ein Dokumenttypfeld so konfigurieren, dass es einen Mehrfachwert hat, erwartet das System mehrere Werte. Ein Beispiel könnte eine Multiple-Choice-Frage in einem Formular sein. Die Ergebnisse werden im Mehrfachwertattribut im Feld angezeigt und als Liste zurückgegeben. Wenn das Dokumenttypfeld als Einzelwert konfiguriert ist, gibt das System standardmäßig das Ergebnis im Wertattribut des Felds zurück.
Die folgende Tabelle zeigt Ihnen, wie Dokumentdaten Felder mit einem und mehreren Werten zurückgibt:
Feldtyp | hat keinen Wert | Hat einen Wert | Hat zwei oder mehr Werte | DocumentData.Data.FieldName.Value | DocumentData.Data.FieldName.MultiValues |
---|---|---|---|---|---|
Einzelwert | Ja | Nein | Keine Angabe | "" | null |
Einzelwert | Nein | Ja | Keine Angabe | <value that was identified> | null |
Mehrfachwert | Ja | Nein | Nein | "" | [] (leeres Array) |
Mehrfachwert | Nein | Ja | Nein | <value that was identified> | [<Array mit einem Wert, der identisch mit .Value >] ist
|
Mehrfachwert | Nein | Nein | Ja | <first value that was identified><Erster Wert, der identifiziert wurde> | [<Array mit n Werten, wobei der erste Wert identisch mit dem .Value >] ist
|
Sie können die Felder, die Sie aus einem Dokument extrahiert haben, als Datentabelle zurückgeben, indem Sie das Dokumentdatenobjekt verwenden. Sie können dann die Datentabellenvariable innerhalb von Excel-Aktivitäten verwenden.
Um die extrahierten Felder als Datentabelle zurückzugeben, wählen Sie die Ausgabe ResultsAsDatatable für die Aktivität Extract Document Data aus.