activities
latest
false
Wichtig :
Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde.
Document Understanding-Aktivitäten
Last updated 29. Okt. 2024

Dokumentdaten

Dokumentdaten ist eine Ressource, die sowohl als Eingabe- als auch als Ausgabevariable in Ihren Document Understanding-Workflows dient. Das Objekt Dokumentdaten enthält alle erforderlichen Informationen zu einem einzelnen Dokument. Wenn Sie ein Dokument klassifizieren, enthält das Objekt den Dokumenttyp. Wenn Sie Daten extrahieren, enthält das Objekt die entsprechenden extrahierten Felder. Unabhängig von der Aktivität enthalten Dokumentdaten konsistent den Text des Dokuments und das DOM (Dokumentobjektmodell).

Mit Dokumentdaten können Sie: Alle erforderlichen Informationen zu einem Dokument in einer Variablen sammeln, Daten zu jeder Eigenschaft des Objekts speichern und für andere Aktivitäten im Workflow wiederverwenden.

Dokumentdaten enthält Informationen zu den folgenden Attributen:

  • Dokumenttyp: Stellt Daten zum identifizierten Dokumenttyp bereit, der durch Aktivitäten wie Classify Document oder Create Classification Validation Task aufgefüllt wird.
  • Daten: Enthält die extrahierten Feldwerte. Sie wird bei Bedarf von der Eigenschaft Daten generieren generiert, die den Ausgabetyp IDocumentData<ExtractorType> generiert. Wenn die Eigenschaft Daten generieren auf False festgelegt ist, können Sie nur über Methoden vom Typ Get auf die extrahierten Feldwerte zugreifen.
  • Dateidetails: Enthält Details zum IResource.
  • SubDocuments: Enthält eine Sammlung von Dokumentdaten, die von Aktivitäten wie Create Classification Validation Task aufgefüllt werden.
  • Dokumentmetadaten: Enthält Informationen zur Verarbeitung des Dokuments, z. B.:
    • Text in Sprache erkannt
    • Extrahierte Felder als Datentabelle
    • Dokumentobjektmodell (DOM): Enthält das Dokumentobjektmodell, das von allen Aktivitäten verwendet wird.
    Die DocumentMetadata werden von der Aktivität aktualisiert, die das Dokument zuerst verarbeitet. Nach dem Auffüllen werden die Metadaten für alle nachfolgenden Aktivitäten freigegeben und verwendet, die das Dokumentdatenobjekt erhalten.
    Tipp: Wenn eine Aktivität nicht die erste Document Understanding-Aktivität ist, die Teil eines Studio-Workflows ist, verwenden Sie Dokumentdaten als Eingabe. Verwenden Sie die Variable Datei nur dann als Eingabe, wenn die Aktivität der erste Document Understanding-Teil eines Studio Workflows ist.

Verstehen und Zugreifen auf Daten

Die Dokumentdaten enthalten detaillierte Informationen über die Extraktionsergebnisse. Es gibt zwei Arten von Daten: Ob Sie sie bei Bedarf generieren, sodass Sie sie in Ihrem Workflow weiter verwenden können, oder ob sie nicht generiert werden, sodass Sie die get - und set -Methoden darauf ausführen können Für erweiterte Implementierungen zur Erhöhung der Flexibilität.

Mit der Eigenschaft „ Datentyp generieren “ in der Aktivität „Dokumentdaten extrahieren“ können Sie auswählen, ob Sie die Daten bei Bedarf generieren möchten oder nicht. Beziehen Sie sich auf die folgenden Szenarien:

  • Wenn Sie „ Datentyp generieren “ auf True (Standardeinstellung) festlegen: Dokumentdaten werden als IDocumentData<ExtractorType>. Diese Daten werden bei Bedarf generiert und basierend auf Änderungen generiert, die in der Aktivität „Extract Document Data“ vorgenommen wurden. Mit dieser Einstellung können Sie den Dokumenttyp in der Validierungsstation nicht ändern, und JIT (Just in Time) ist standardmäßig ausgewählt.
  • Wenn Sie „ Datentyp generieren “ auf False festlegen: Dokumentdaten werden als IDocumentData<DictionaryData>. Mit dieser Einstellung wird die Eigenschaft „Dokumentdaten“ nicht mehr generiert und Sie können sie nicht durchsuchen.

    Sie können mithilfe bestimmter Methoden auf die Daten des Felds zugreifen, je nach der Feld-ID. Diese IDs werden beim Konfigurieren des Dokumenttyps oder beim Abrufen der Informationen mithilfe von APIs verfügbar. Weitere Informationen finden Sie unter Bearbeiten oder Hinzufügen neuer Felder und API für Extraktionsanforderung abrufen .

    • Wenn Sie „ Datentyp generieren “ für die generative Extraktion auf False festlegen, entsprechen die abgerufenen Felder den in der Eingabeaufforderung angegebenen Namen. Wenn der Feldname in der Eingabeaufforderung beispielsweise als a b c (einschließlich der Leerzeichen) definiert ist, sollten Sie ihn wie die Feld-ID verwenden, wenn Sie die spezifischen Methoden verwenden.

Übergeben von Dokumentdaten an Aktivitäten

Wenn Sie Dokumentdaten verwenden, wird das erste Ausgabeobjekt aus Ihrer Eingabedatei erstellt. Nachdem Sie dieses Objekt erstellt haben, empfehlen wir Ihnen, es an Ihre nächsten Aktivitäten weiterzugeben. Wenn Sie es an Ihre nächsten Aktivitäten übergeben, können Sie den Text und das DOM aus Ihrer ursprünglichen Datei wiederverwenden. Dieser Ansatz erspart Ihnen jedes Mal die Datei neu zu digitalisieren.

Verbrauchen der Extraktionsergebnisse für Felder mit einem oder mehreren Werten

Wenn Sie ein Dokumenttypfeld so konfigurieren, dass es einen Mehrfachwert hat, erwartet das System mehrere Werte. Ein Beispiel könnte eine Multiple-Choice-Frage in einem Formular sein. Die Ergebnisse werden im Mehrfachwertattribut im Feld angezeigt und als Liste zurückgegeben. Wenn das Dokumenttypfeld als Einzelwert konfiguriert ist, gibt das System standardmäßig das Ergebnis im Wertattribut des Felds zurück.

Die folgende Tabelle zeigt Ihnen, wie Dokumentdaten Felder mit einem und mehreren Werten zurückgibt:

Tabelle 1. Die von Dokumentdaten für Felder mit einem und mehreren Werten zurückgegebenen Werte
Feldtyphat keinen WertHat einen WertHat zwei oder mehr WerteDocumentData.Data.FieldName.ValueDocumentData.Data.FieldName.MultiValues
Einzelwert JaNeinKeine Angabe""null
EinzelwertNeinJaKeine Angabe<value that was identified>null
MehrfachwertJaNeinNein""[] (leeres Array)
MehrfachwertNeinJaNein<value that was identified>[<Array mit einem Wert, der identisch mit .Value>] ist
MehrfachwertNeinNeinJa<first value that was identified><Erster Wert, der identifiziert wurde>[<Array mit n Werten, wobei der erste Wert identisch mit dem .Value>] ist

Zurückgeben extrahierter Felder als Datentabelle

Sie können die Felder, die Sie aus einem Dokument extrahiert haben, als Datentabelle zurückgeben, indem Sie das Dokumentdatenobjekt verwenden. Sie können dann die Datentabellenvariable innerhalb von Excel-Aktivitäten verwenden.

Um die extrahierten Felder als Datentabelle zurückzugeben, wählen Sie die Ausgabe ResultsAsDatatable für die Aktivität Extract Document Data aus.

Eigenschaften

Die Eigenschaften der Dokumentdatenvariablen können von einer oder mehreren Aktivitäten gefüllt und abgerufen werden. Je nach Aktivität, die die Variable füllt, können sich die Eigenschaften unterscheiden. Überprüfen Sie Folgendes:

  • DokumenttypClassify Document füllt die folgenden Werte aus:
    • Anzeigename (für benutzerdefinierte Modelle verwendet): Name des Dokumenttyps.
    • ID (wird für vorgefertigte Modelle verwendet): Name des Dokumenttyps.
    • Konfidenz ( Confidence): Klassifizierungskonfidenz.
    • URL: URL, deren Zugriff auf den Dokumenttyp möglich ist; Dies kann entweder benutzerdefiniert oder vordefiniert sein, auf die über das jeweilige Projekt im Document Understanding-Center verwiesen wird.
  • FelderExtract Document Data, Create Validation Task, Create Validation Task and Wait, Wait for Validation Task and Resume füllen die folgenden Werte aus:
    • Feldwert: Extraktionswert des Felds.
    • Konfidenzbewertung der Extraktion: Konfidenzbewertung der Extraktion, wie vom Modell bereitgestellt.
    • OCR-Konfidenzbewertung: Konfidenzbewertung, die von der OCR-Engine bereitgestellt wird.
  • Dateidetails – Aktivitäten, die das Dokumentdatenobjekt erstellen, eine Datei als Eingabe empfangen, füllen die folgenden Werte aus:
    • Vollständiger Name: Der vollständige Name der Datei.
    • Erweiterung: Erweiterung der Datei.
    • Seitenbereich: Seitenbereich der Datei.
  • Unterdokumente: Sammlung von Dokumentdaten, die durch die Aktivität Classify Document aufgefüllt werden.
    Hinweis: Dieser Bereich ist derzeit noch nicht ausgefüllt und wird in Zukunft zusammen mit der Klassifizierungsvalidierung und den Aufteilungsfunktionen hinzugefügt werden.
  • DocumentMetaData:
    • DOM: Das Dokumentobjektmodell, das von allen Aktivitäten verwendet wird. (aufgefüllt von Aktivitäten, die das Dokumentdatenobjekt erstellen und eine Datei als Eingabe empfangen.)
    • Text: Der gesamte extrahierte Text. (aufgefüllt von Aktivitäten, die das Dokumentdatenobjekt erstellen und eine Datei als Eingabe empfangen.)
    • Sprache: Die im Dokument erkannte Sprache. (aufgefüllt von Aktivitäten, die das Dokumentdatenobjekt erstellen und eine Datei als Eingabe empfangen.)
    • Aufteilungskonfidenz: Wenn das Dokument aufgeteilt wird, wird das Dokument vom Aufteilungsmodell zurückgegeben. (aufgefüllt durch die Aktivität Classify Document )
      Hinweis: Dieser Bereich ist derzeit noch nicht ausgefüllt und wird in Zukunft zusammen mit der Klassifizierungsvalidierung und den Aufteilungsfunktionen hinzugefügt werden.
    • Ergebnisse als Datentabellen: Felder, die als Datentabelle exportiert werden. (aufgefüllt durch die Aktivität „ Extract Document Data “).

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten