- Überblick
- Verträge zur Dokumentverarbeitung
- Versionshinweise
- Über die DocumentProcessing-Verträge
- Box-Klasse
- IPersistedActivity-Schnittstelle
- PrettyBoxConverter-Klasse
- IClassifierActivity-Schnittstelle
- IClassifierCapabilitiesProvider-Schnittstelle
- ClassifierDocumentType-Klasse
- ClassifierResult-Klasse
- ClassifierCodeActivity-Klasse
- ClassifierNativeActivity-Klasse
- ClassifierAsyncCodeActivity-Klasse
- ClassifierDocumentTypeCapability-Klasse
- ExtractorAsyncCodeActivity-Klasse
- ExtractorCodeActivity-Klasse
- ExtractorDocumentType-Klasse
- ExtractorDocumentTypeCapabilities-Klasse
- ExtractorFieldCapability-Klasse
- ExtractorNativeActivity-Klasse
- ExtractorResult-Klasse
- ICapabilitiesProvider-Schnittstelle
- IExtractorActivity-Schnittstelle
- ExtractorPayload-Klasse
- DocumentActionPriority-Enumeration
- DocumentActionData-Klasse
- DocumentActionStatus-Enumeration
- DocumentActionType-Enumeration
- DocumentClassificationActionData-Klasse
- DocumentValidationActionData-Klasse
- UserData-Klasse
- Document-Klasse
- DocumentSplittingResult-Klasse
- DomExtensions-Klasse
- Page-Klasse
- PageSection-Klasse
- Polygon-Klasse
- PolygonConverter-Klasse
- Metadatenklasse
- WordGroup-Klasse
- Word-Klasse
- ProcessingSource-Enumeration
- ResultsTableCell-Klasse
- ResultsTableValue-Klasse
- ResultsTableColumnInfo-Klasse
- ResultsTable-Klasse
- Rotation-Enumeration
- SectionType-Enumeration
- WordGroupType-Enumeration
- IDocumentTextProjection-Schnittstelle
- ClassificationResult-Klasse
- ExtractionResult-Klasse
- ResultsDocument-Klasse
- ResultsDocumentBounds-Klasse
- ResultsDataPoint-Klasse
- ResultsValue-Klasse
- ResultsContentReference-Klasse
- ResultsValueTokens-Klasse
- ResultsDerivedField-Klasse
- ResultsDataSource-Enumeration
- ResultConstants-Klasse
- SimpleFieldValue-Klasse
- TableFieldValue-Klasse
- DocumentGroup-Klasse
- DocumentTaxonomy-Klasse
- DocumentType-Klasse
- Field-Klasse
- FieldType-Enumeration
- LanguageInfo-Klasse
- MetadataEntry-Klasse
- TextType-Aufzählung
- TypeField-Klasse
- ITrackingActivity-Schnittstelle
- ITrainableActivity-Schnittstelle
- ITrainableClassifierActivity-Schnittstelle
- ITrainableExtractorActivity-Schnittstelle
- TrainableClassifierAsyncCodeActivity-Klasse
- TrainableClassifierCodeActivity-Klasse
- TrainableClassifierNativeActivity-Klasse
- TrainableExtractorAsyncCodeActivity-Klasse
- TrainableExtractorCodeActivity-Klasse
- TrainableExtractorNativeActivity-Klasse
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Versionshinweise
- Über das Document Understanding-Aktivitätspaket
- Projektkompatibilität
- PDF-Passwort festlegen
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- PDF-Seitenbereich extrahieren
- Extract Document Data
- Validierungsaufgabe erstellen und warten
- Wait for Validation Task and Resume
- Create Validation Task
- Dokument klassifizieren (Classify Document)
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Wait For Classification Validation Task And Resume
- IntelligentOCR
- Versionshinweise
- Über das IntelligentOCR-Aktivitätspaket
- Projektkompatibilität
- Konfigurieren der Authentifizierung
- Taxonomie laden (Load Taxonomy)
- Digitalisieren von Dokumenten
- Dokumentbereich klassifizieren (Classify Document Scope)
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Document Understanding-Projektklassifizierer
- Intelligenter Schlüsselwortklassifizierer
- Create Document Validation Action
- Wait For Document Classification Action And Resume
- Klassifizierer-Scope trainieren
- Keyword Based Classifier Trainer
- Intelligent Keyword Classifier Trainer
- Datenextraktionsumfang
- Document Understanding-Projektextraktor
- Regex Based Extractor
- Form Extractor
- Extraktor für intelligente Formulare
- Aktuelle Validierungsstation
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Train Extractors Scope
- Extraktionsergebnisse exportieren
- ML-Services
- OCR
- OCR-Verträge
- Versionshinweise
- Über die OCR-Verträge
- Projektkompatibilität
- IOCRActivity-Schnittstelle
- OCRAsyncCodeActivity-Klasse
- OCRCodeActivity-Klasse
- OCRNativeActivity-Klasse
- Character-Klasse
- OCRResult-Klasse
- Word-Klasse
- FontStyles-Enumeration
- OCRRotation-Enumeration
- OCRCapabilities-Klasse
- OCRScrapeBase-Klasse
- OCRScrapeFactory-Klasse
- ScrapeControlBase-Klasse
- ScrapeEngineUsages-Enumeration
- ScrapeEngineBase
- ScrapeEngineFactory-Klasse
- ScrapeEngineProvider-Klasse
- OmniPage
- PDF
- [Nicht aufgeführt] Abbyy
- Versionshinweise
- Über das Abbyy-Aktivitätspaket
- Projektkompatibilität
- Abbyy OCR
- Abbyy Cloud OCR
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Dokument klassifizieren (Classify Document)
- Dokument verarbeiten (Process Document)
- Dokument validieren (Validate Document)
- Dokument exportieren (Export Document)
- Feld erhalten (Get Field)
- Tabelle erhalten (Get Table)
- Vorbereiten der Validierungsstationsdaten
- [Nicht aufgeführt] Abbyy Embedded
Document Understanding-Aktivitäten
Dokumentdaten
Dokumentdaten ist eine Ressource, die sowohl als Eingabe- als auch als Ausgabevariable in Ihren Document Understanding-Workflows dient. Das Objekt Dokumentdaten enthält alle erforderlichen Informationen zu einem einzelnen Dokument. Wenn Sie ein Dokument klassifizieren, enthält das Objekt den Dokumenttyp. Wenn Sie Daten extrahieren, enthält das Objekt die entsprechenden extrahierten Felder. Unabhängig von der Aktivität enthalten Dokumentdaten konsistent den Text des Dokuments und das DOM (Dokumentobjektmodell).
Mit Dokumentdaten können Sie: Alle erforderlichen Informationen zu einem Dokument in einer Variablen sammeln, Daten zu jeder Eigenschaft des Objekts speichern und für andere Aktivitäten im Workflow wiederverwenden.
Dokumentdaten enthält Informationen zu den folgenden Attributen:
- Dokumenttyp: Stellt Daten zum identifizierten Dokumenttyp bereit, der durch Aktivitäten wie Classify Document oder Create Classification Validation Task aufgefüllt wird.
- Daten: Enthält die extrahierten Feldwerte. Sie wird bei Bedarf von der Eigenschaft Daten generieren generiert, die den Ausgabetyp
IDocumentData<ExtractorType>
generiert. Wenn die Eigenschaft Daten generieren aufFalse
festgelegt ist, können Sie nur über Methoden vom TypGet
auf die extrahierten Feldwerte zugreifen. - Dateidetails: Enthält Details zum
IResource
. - SubDocuments: Enthält eine Sammlung von Dokumentdaten, die von Aktivitäten wie Create Classification Validation Task aufgefüllt werden.
- Dokumentmetadaten: Enthält Informationen zur Verarbeitung des Dokuments, z. B.:
- Text in Sprache erkannt
- Extrahierte Felder als Datentabelle
- Dokumentobjektmodell (DOM): Enthält das Dokumentobjektmodell, das von allen Aktivitäten verwendet wird.
Tipp: Wenn eine Aktivität nicht die erste Document Understanding-Aktivität ist, die Teil eines Studio-Workflows ist, verwenden Sie Dokumentdaten als Eingabe. Verwenden Sie die Variable Datei nur dann als Eingabe, wenn die Aktivität der erste Document Understanding-Teil eines Studio Workflows ist.
get
- und set
-Methoden darauf ausführen können Für erweiterte Implementierungen zur Erhöhung der Flexibilität.
Mit der Eigenschaft „ Datentyp generieren “ in der Aktivität „Dokumentdaten extrahieren“ können Sie auswählen, ob Sie die Daten bei Bedarf generieren möchten oder nicht. Beziehen Sie sich auf die folgenden Szenarien:
- Wenn Sie „ Datentyp generieren “ auf
True
(Standardeinstellung) festlegen: Dokumentdaten werden alsIDocumentData<ExtractorType>
. Diese Daten werden bei Bedarf generiert und basierend auf Änderungen generiert, die in der Aktivität „Extract Document Data“ vorgenommen wurden. Mit dieser Einstellung können Sie den Dokumenttyp in der Validierungsstation nicht ändern, und JIT (Just in Time) ist standardmäßig ausgewählt. - Wenn Sie „ Datentyp generieren “ auf
False
festlegen: Dokumentdaten werden alsIDocumentData<DictionaryData>
. Mit dieser Einstellung wird die Eigenschaft „Dokumentdaten“ nicht mehr generiert und Sie können sie nicht durchsuchen.Sie können mithilfe bestimmter Methoden auf die Daten des Felds zugreifen, je nach der Feld-ID. Diese IDs werden beim Konfigurieren des Dokumenttyps oder beim Abrufen der Informationen mithilfe von APIs verfügbar. Weitere Informationen finden Sie unter Bearbeiten oder Hinzufügen neuer Felder und API für Extraktionsanforderung abrufen .
- Wenn Sie „ Datentyp generieren “ für die generative Extraktion auf
False
festlegen, entsprechen die abgerufenen Felder den in der Eingabeaufforderung angegebenen Namen. Wenn der Feldname in der Eingabeaufforderung beispielsweise alsa b c
(einschließlich der Leerzeichen) definiert ist, sollten Sie ihn wie die Feld-ID verwenden, wenn Sie die spezifischen Methoden verwenden.
- Wenn Sie „ Datentyp generieren “ für die generative Extraktion auf
Wenn Sie Dokumentdaten verwenden, wird das erste Ausgabeobjekt aus Ihrer Eingabedatei erstellt. Nachdem Sie dieses Objekt erstellt haben, empfehlen wir Ihnen, es an Ihre nächsten Aktivitäten weiterzugeben. Wenn Sie es an Ihre nächsten Aktivitäten übergeben, können Sie den Text und das DOM aus Ihrer ursprünglichen Datei wiederverwenden. Dieser Ansatz erspart Ihnen jedes Mal die Datei neu zu digitalisieren.
Wenn Sie ein Dokumenttypfeld so konfigurieren, dass es einen Mehrfachwert hat, erwartet das System mehrere Werte. Ein Beispiel könnte eine Multiple-Choice-Frage in einem Formular sein. Die Ergebnisse werden im Mehrfachwertattribut im Feld angezeigt und als Liste zurückgegeben. Wenn das Dokumenttypfeld als Einzelwert konfiguriert ist, gibt das System standardmäßig das Ergebnis im Wertattribut des Felds zurück.
Die folgende Tabelle zeigt Ihnen, wie Dokumentdaten Felder mit einem und mehreren Werten zurückgibt:
hat keinen Wert | Hat einen Wert | Hat zwei oder mehr Werte | DocumentData.Data.FieldName.Value | DocumentData.Data.FieldName.MultiValues | |
---|---|---|---|---|---|
Einzelwert | Ja | Nein | Keine Angabe | "" | null |
Einzelwert | Nein | Ja | Keine Angabe | <value that was identified> | null |
Mehrfachwert | Ja | Nein | Nein | "" | [] (leeres Array) |
Mehrfachwert | Nein | Ja | Nein | <value that was identified> | [<Array mit einem Wert, der identisch mit .Value >] ist
|
Mehrfachwert | Nein | Nein | Ja | <first value that was identified><Erster Wert, der identifiziert wurde> | [<Array mit n Werten, wobei der erste Wert identisch mit dem .Value >] ist
|
Sie können die Felder, die Sie aus einem Dokument extrahiert haben, als Datentabelle zurückgeben, indem Sie das Dokumentdatenobjekt verwenden. Sie können dann die Datentabellenvariable innerhalb von Excel-Aktivitäten verwenden.
Um die extrahierten Felder als Datentabelle zurückzugeben, wählen Sie die Ausgabe ResultsAsDatatable für die Aktivität Extract Document Data aus.
Die Eigenschaften der Dokumentdatenvariablen können von einer oder mehreren Aktivitäten gefüllt und abgerufen werden. Je nach Aktivität, die die Variable füllt, können sich die Eigenschaften unterscheiden. Überprüfen Sie Folgendes:
- Dokumenttyp – Classify Document füllt die folgenden Werte aus:
- Anzeigename (für benutzerdefinierte Modelle verwendet): Name des Dokumenttyps.
- ID (wird für vorgefertigte Modelle verwendet): Name des Dokumenttyps.
- Konfidenz ( Confidence): Klassifizierungskonfidenz.
- URL: URL, deren Zugriff auf den Dokumenttyp möglich ist; Dies kann entweder benutzerdefiniert oder vordefiniert sein, auf die über das jeweilige Projekt im Document Understanding-Center verwiesen wird.
- Felder – Extract Document Data, Create Validation Task, Create Validation Task and Wait, Wait for Validation Task and Resume füllen die folgenden Werte aus:
- Feldwert: Extraktionswert des Felds.
- Konfidenzbewertung der Extraktion: Konfidenzbewertung der Extraktion, wie vom Modell bereitgestellt.
- OCR-Konfidenzbewertung: Konfidenzbewertung, die von der OCR-Engine bereitgestellt wird.
- Dateidetails – Aktivitäten, die das Dokumentdatenobjekt erstellen, eine Datei als Eingabe empfangen, füllen die folgenden Werte aus:
- Vollständiger Name: Der vollständige Name der Datei.
- Erweiterung: Erweiterung der Datei.
- Seitenbereich: Seitenbereich der Datei.
- Unterdokumente: Sammlung von Dokumentdaten, die durch die Aktivität Classify Document aufgefüllt werden.
Hinweis: Dieser Bereich ist derzeit noch nicht ausgefüllt und wird in Zukunft zusammen mit der Klassifizierungsvalidierung und den Aufteilungsfunktionen hinzugefügt werden.
- DocumentMetaData:
- DOM: Das Dokumentobjektmodell, das von allen Aktivitäten verwendet wird. (aufgefüllt von Aktivitäten, die das Dokumentdatenobjekt erstellen und eine Datei als Eingabe empfangen.)
- Text: Der gesamte extrahierte Text. (aufgefüllt von Aktivitäten, die das Dokumentdatenobjekt erstellen und eine Datei als Eingabe empfangen.)
- Sprache: Die im Dokument erkannte Sprache. (aufgefüllt von Aktivitäten, die das Dokumentdatenobjekt erstellen und eine Datei als Eingabe empfangen.)
- Aufteilungskonfidenz: Wenn das Dokument aufgeteilt wird, wird das Dokument vom Aufteilungsmodell zurückgegeben. (aufgefüllt durch die Aktivität Classify Document )
Hinweis: Dieser Bereich ist derzeit noch nicht ausgefüllt und wird in Zukunft zusammen mit der Klassifizierungsvalidierung und den Aufteilungsfunktionen hinzugefügt werden.
- Ergebnisse als Datentabellen: Felder, die als Datentabelle exportiert werden. (aufgefüllt durch die Aktivität „ Extract Document Data “).