Aktivitäten – Dokumentdaten extrahieren

activities

latest

false

Document Understanding-Aktivitäten

Wichtig :

Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Extract Document Data

Extrahieren Sie Daten aus einer Dokumentdatei oder einem Dokumentdatenobjekt und speichern Sie die Ergebnisse in einem Dokumentdatenobjekt mithilfe der Aktivität Extract Document Data.

UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>

Beschreibung

Extrahiert Daten aus einer Eingabedatei oder einem Dokumentdatenobjekt und speichert die Ergebnisse in einem Dokumentdatenobjekt.

Bevor Sie beginnen

Voraussetzungen

Die Aktivität „Extract Document Data“ erfordert Eingabeobjekte vom Typ „Dokumentdaten“ oder „Datei“. Ein möglicher Anwendungsfall für die Verwendung dieser Aktivität ist das Vorhergehen mit einer Aktivität Classify Document, die ein Objekt vom Typ „Dokumentdaten“ generiert.

Eingabeoptionen

Die Aktivität „Extract Document Data“ erhält als Eingabe eine der folgenden Auswahlmöglichkeiten:

Dokumentdaten – aus der Aktivität „Classify Document“
Datei – aus den Aktivitäten „Get File/Folder“ oder „Get Newest Email“

Unterstützte Sprachen für generative Modelle

Die unterstützten Sprachen für die generativen Modelle sind die gleichen wie die verwendete OCR-Engine, die vom Projekt abhängt. Für die vordefinierten und generativ vordefinierten Projekte wird als OCR-Modul die UiPath Document OCR verwendet. Weitere Informationen finden Sie auf der Seite OCR unterstützte Sprachen .

Von der Aktivität verwendete Modelle

Die Aktivität „Extract Document Data“ verwendet Folgendes:

Vortrainierte, spezialisierte Modelle, die sofort verfügbar sind, basierend auf dem Helix Extractor.
Benutzerdefinierte vortrainierte Modelle, die in modernen und klassischen Document Understanding-Projekten bereitgestellt werden.
Generative Extraktionsmodelle.

Bekannte Einschränkungen

Der generative vordefinierte Projekttyp und die entsprechenden Extraktoren sind in der Automation Suite nicht verfügbar.

Bei Verwendung der Aktivität „Extract Document Data“ werden Klassifizierungsfelder für moderne Projektextraktoren und Out-of-the-Box-Modelle unterstützt, nicht jedoch für klassische Projektextraktoren.

Das Bereitstellen von DocumentData mit Unterdokumenten für die Aktivität „Extract Document Data“ löst einen Laufzeitfehler aus. Dieses Verhalten ist beabsichtigt. Um Daten aus einem geteilten Dokument zu extrahieren, durchlaufen Sie jedes Unterdokument.

Projektkompatibilität

Windows | Plattformübergreifend

Konfiguration

Designer-Panel

Eingabe – Erfordert, dass Sie die Datei selbst oder Dokumentdaten angeben, falls Sie in Ihrem Workflow bereits andere Document Understanding-Aktivitäten verwendet haben (z. B. Classify Document).

Wichtig:
Die maximale Anzahl von Seiten, die eine Datei haben kann, beträgt 500. Dateien, die diesen Grenzwert überschreiten, können nicht extrahiert werden.
Projekt – Erfordert, dass Sie Ihr Document Understanding-Projekt aus der Dropdownliste auswählen. Die verfügbaren Optionen sind:
- Vordefiniert – Klassischer Projekttyp, der vortrainierte spezialisierte Modelle verwendet, die für Standardszenarien empfohlen werden. Weitere Informationen zur Abrechnungslogik für klassische Projekte finden Sie unter Mess- und Abrechnungslogik.
- Generativ vordefiniert – Moderner Projekttyp, der vortrainierte generative Modelle verwendet, die Anweisungen als Eingabe für die Extraktion von Dokumentdaten akzeptieren. Weitere Informationen zur Abrechnungslogik für moderne Projekte finden Sie unter Mess- und Abrechnungslogik.
- Vordefinierte nicht-lateinische Sprachen – Moderner Projekttyp, der vortrainierte Modelle für nicht-lateinische Dokumentverarbeitungsszenarien verwendet. Weitere Informationen zur Abrechnungslogik für moderne Projekte finden Sie unter Mess- und Abrechnungslogik.
- Vorhandene Projekte aus dem Mandanten und Ordner, mit dem Sie verbunden sind.
- Sie können ein benutzerdefiniertes Projekt erstellen, indem Sie Document Understanding aufrufen. Weitere Informationen finden Sie unter Einführung in das Erstellen von Modellen.
  Hinweis:
  Wenn Sie mehr als 500 Projekte auf Ihrem Mandanten erstellt haben und die Aktivität „Extract Document Data“ verwenden, zeigt UiPath Studio oder Studio Web keine Projekte über die ursprünglichen 500 hinaus an. Daher können diese Projekte nicht verwendet werden.
Extraktor – Nachdem Sie ein Projekt ausgewählt haben, können Sie auch einen Extraktor auswählen, den Sie verwenden möchten.
- Für das vordefinierte Projekt haben Sie zwei Möglichkeiten: – Wählen Sie ein vortrainiertes Modell aus. Eine Liste der vortrainierten Modelle, die Sie verwenden können, finden Sie unter Vorgefertigte Modelle .
  Hinweis:
  Die Aktivität „Extract Document Data“ extrahiert die Informationen für die Felder, die für den ausgewählten Extraktor im Dokumententyp verfügbar sind (unabhängig vom tatsächlichen Typ des Dokuments). Dies gilt nicht für generative Modelle.
  - Wählen Sie den generativen Extraktor aus.
    Hinweis:
    Die an den generativen Extraktor gesendeten Informationen gehen an eine LLM-Modellinstanz. Diese Instanz ist nicht öffentlich verfügbar, speichert die gesendeten Daten nicht und verwendet sie nicht zu Trainingszwecken.
- Für das generativ vordefinierte Projekt haben Sie drei Extraktionsoptionen, die auf ein bestimmtes Dokumentlayout zugeschnitten sind:
  - Extraktor für lange Dokumente mit einfachem Layout – Empfohlen für Dokumente in langer Form, die hauptsächlich Text und Überschriften enthalten. Zum Beispiel können Sie den Extraktor für lange Dokumente mit einfachem Layout wie Mietverträge, Rahmenserviceverträge oder andere ähnliche Dokumente verwenden.
  - Extraktor für komplexes Layout für lange Dokumente (Vorschau) – Empfohlen für lange Dokumente, die Elemente wie Bilder, Handschrift, Formularsteuerelemente, schwebende Popup-Felder oder andere komplexe Layouttypen enthalten. Sie können z. B. den Extraktor für komplexes Layout für lange Dokumente für Dokumente wie Versicherungspolicen oder andere ähnliche Dokumente verwenden.
  - Extraktor für komplexes Layout für kurze Dokumente (Vorschau) – Empfohlen für kurze Dokumente, die Elemente wie Bilder, Handschrift, Formularsteuerelement, schwebende Popup-Felder oder andere komplexe Layouttypen enthalten. Sie können beispielsweise den Extraktor für komplexe Layouts kurzer Dokumente auf Dokumente wie Regierungsausweise, Aufnahmeformulare für das Gesundheitswesen oder ähnliche Dokumente anwenden.
- Für das Projekt Vordefinierte nicht-lateinische Sprachen haben Sie drei Extraktionsoptionen, die auf ein bestimmtes nicht-lateinisches Dokumentlayout zugeschnitten sind:
  - Rechnungen Japan – Empfohlen für japanische Rechnungsdokumente. Der Extraktor kann gängige japanische Rechnungslayouts verarbeiten und wichtige Rechnungsfelder wie Lieferanteninformationen, Rechnungsnummer und Währung identifizieren und extrahieren.
  - Rechnungen China – Empfohlen für chinesische Rechnungsdokumente. Der Extraktor kann gängige chinesische Rechnungslayouts verarbeiten und wichtige Rechnungsfelder wie Lieferanteninformationen, Rechnungsnummer und Währung identifizieren und extrahieren.
  - Receipts Japan – Empfohlen für japanische Belegdokumente. Sie können den Extraktor verwenden, um Felder wie Händlername, Transaktionsdatum, Gesamtbetrag, Steuer und Währung aus Belegen in japanischer Sprache zu identifizieren und zu extrahieren.
- Klassifizierungsergebnis verwenden: Wenn die Eigenschaft Datentyp generieren auf „false“ festgelegt ist, können Sie sich für die Option Klassifizierungsergebnis verwenden entscheiden. Diese Option verwendet automatisch einen empfohlenen Extraktor basierend auf dem Dokumenttyp, der sich aus der Aktivität „Classify Document“ ergibt. Wenn mehrere Extraktoren mit diesem Dokumenttyp arbeiten können, gibt die Aktivität einen Fehler zurück. In diesem Szenario müssen Sie Ihren bevorzugten Extraktor manuell auswählen.
Dokumenttypdetails – Dieses Feld wird angezeigt, wenn Sie die Option Generativ auswählen. Aufforderung zur Identifizierung der zu extrahierenden Felder, die als Schlüssel-Wert-Paare bereitgestellt werden, wobei der Schlüssel den Namen des Felds und der Wert eine Beschreibung des Felds darstellt, die dem Extraktor hilft, den entsprechenden Wert zu identifizieren. Wählen Sie das Feld aus, und Sie erhalten eine Eingabeaufforderung mit den folgenden Optionen, die als Paare bereitgestellt werden:
- Feldname – Erfordert die Eingabe des zu extrahierenden Feldnamens (z. B. Fälligkeitsdatum) (maximal 30 Zeichen)
- Anweisung – Erfordert, dass Sie Anweisungen darüber geben, welche Informationen für das entsprechende Feld extrahiert werden sollen.. Die maximale Anzahl der zulässigen Zeichen ist 1000. Die Antwort, das Extraktionsergebnis, auch Vervollständigung genannt, hat ein Wortlimit von 700. Dies ist auf 700 Wörter begrenzt. Das bedeutet, dass Sie nicht mehr als 700 Wörter aus einer einzelnen Aufforderung extrahieren können. Wenn Ihre Extraktionsanforderungen diesen Grenzwert überschreiten, können Sie das Dokument auf mehrere Seiten aufteilen, diese einzeln verarbeiten und die Ergebnisse anschließend zusammenführen.
  Tipp:
  Bewährte Vorgehensweisen für die Verwendung von generativen Eingabeaufforderungen finden Sie auf der Seite Generativer Extraktor – Bewährte Vorgehensweisen .
Version – Verwenden Sie diese Eigenschaft, wenn Sie ein vorhandenes modernes Document Understanding-Projekt verwenden. Wählen Sie den Versionsnamen oder das Tag aus, der der Projektversion entspricht, aus der Sie Daten verarbeiten möchten. Wenn Sie beispielsweise das Produktions- Tag auswählen, das Version 3 zugewiesen ist, verarbeitet die Aktivität Daten aus Version 3 Ihres Projekts in der Produktionsumgebung. Sie können auch eine bestimmte Version aus der Dropdownliste auswählen, wenn Sie die Staging- und Produktions-Tags nicht verwenden möchten. Weitere Informationen zu Versionen finden Sie unter Veröffentlichen von Modellen.
Dokumenttyp – Wenn Sie im Feld Version ein Tag auswählen, wählt die Aktivität automatisch den ersten bereitgestellten Dokumenttyp aus der entsprechenden Version des von Ihnen gewählten Projekts. Außerdem werden die Extraktionsfelder für den von Ihnen ausgewählten Dokumenttyp angezeigt.
Use Solution Resource - Enable this toggle to select an IXP model as a solution resource. This option is available only when your workflow is part of a solution. The selected IXP model is added to the solution, appears in the Resource Explorer in Studio Web, and is packaged and deployed together with the rest of the solution's resources.
- IXP Model - Select the IXP model that you want to use for data extraction. This field appears only when you enable the Use Solution Resource toggle.

Eigenschaften-Panel

Eingabe

Timeout (Sekunden) – Maximale Ausführungszeit (in Sekunden) für den Aufruf des generativen Modells. Wenn der Vorgang dieses Timeout überschreitet, wird er automatisch beendet, um Verzögerungen oder Hänger zu vermeiden. Diese Eigenschaft wird nur angezeigt, wenn der generative Extraktor als Extraktor ausgewählt ist.
Automatische Validierung – Verwenden Sie diese Option, um die automatische Validierung zu aktivieren, eine Funktion, die hilft, die für die Datenextraktion anhand eines generativen Modells erhaltenen Ergebnisse zu validieren. Der Standardwert für das Feld Automatische Validierung ist False.
- Konfidenzschwellenwert – Dieses Feld wird angezeigt, sobald Sie die automatische Validierung aktivieren. Extraktionsergebnisse, die unter den Schwellenwert fallen, werden mit dem generativen Extraktionsmodell verglichen. Wenn sie übereinstimmen, passt das System die Extraktionskonfidenz an, um den Schwellenwert zu erreichen. Mögliche Schwellenwerte reichen von 0 bis 100. Wenn der Wert auf 0 festgelegt ist, wird keine Validierung angewendet. Wenn Sie jedoch einen bestimmten Wert (von 0 bis 100) festlegen, überprüft das System alle Extraktionsergebnisse unter diesem Wert. Wenn Sie beispielsweise einen Konfidenzschwellenwert von 80 % festlegen, wendet das System die generative Validierung für Felder mit einer Konfidenz unter 80 % an.
  Hinweis:
  Automatische Validierung ist nur für spezielle Extraktionsmodelle verfügbar.
Generate Data Type - If set to True, indicates that the output should be generated based on the selected extractor, resulting in an IDocumentData<ExtractorType> object. Alternatively, if set to False, indicates that the data generation should be skipped, resulting in a generic IDocumentData<DictionaryData> object. When set to False, you can consume the results either through the Get/Set methods or through the strongly-typed ExtractionResultHandler navigator, available on the output as DocumentData.Data.Handler. Visit Document Data for additional details and limitations available for the two object types.

Ausgabe

Document Data - All the extracted field data from the file. Information can also be received from Classify Document. To learn how Document Data works and how to consume the extracted results for single and multi-value fields, visit Document data. When Generate Data Type is off, the DictionaryData output can also be navigated and edited with the strongly-typed ExtractionResultHandler navigator, via DocumentData.Data.Handler.

Wenn Sie IXP-Projekte für unstrukturierte Dokumente mit der Aktivität Extract Document Data verwenden, unterstützt das Ausgabeobjekt der Dokumentdaten Folgendes:
- Die Ergebnisse werden als Feldgruppen anstelle von Tabellen gemeldet.
- Felder geben die spezifischen Feldtypen zurück, die im Projekt definiert sind, einschließlich Geldbetrag.
- Dokumentvalidierungsaufgaben zeigen Ergebnisse als Feldgruppen anstelle von Tabellen an.
Jede nachgelagerte Verarbeitung oder Datenmanipulationslogik, die auf dieser Ausgabe basiert, muss Feldgruppenwerte berücksichtigen. Die vollständige Liste der unterstützten Feldtypen finden Sie unter FieldType Enum.

Externe Verbindung

Anmeldeinformations-Asset – Der Asset-Pfad der Orchestrator-Anmeldeinformationen, der zur Authentifizierung beim Document Understanding-Mandanten verwendet wird. Die Eingabe muss das Format <orchestratorFolder>/<assetName> haben.
Mandanten-URL – Die Mandanten-URL, die zur Authentifizierung beim Document Understanding Dienst verwendet wird. Die Eingabe muss das Format https://<base_url>/<organization>/<tenant> haben.

Hinweis:

Sie müssen das Anmeldeinformations-Asset über Zugriffsbereich → Automatisierungen und API konfigurieren. Die Authentifizierung bei einem anderen Mandanten oder einer anderen Organisation funktioniert nur in Umgebungen, die diese Konfiguration der Anmeldeinformationen unterstützen.

Unterstützte Modelle

Die unter dem Projekt Generativ vordefiniert verfügbaren generativen Extraktoren können für die in folgender Tabelle beschriebenen Dokumente verwendet werden:

Hinweis:

Die Extraktoren für komplexes Layout für lange Dokumente und komplexes Layout für kurze Dokumente sind derzeit nicht in Automation Cloud^TM für Umgebungen des öffentlichen Sektors (FedRamp) verfügbar.

Tabelle 1. Unterstützte Szenarien für generative Extraktionsmodelle

Extraktor	Empfohlenes Szenario	Anbieter	Regionale Verfügbarkeit	.¹
Extraktor für langes Dokument – einfaches Layout	Empfohlen für lange Dokumente mit hauptsächlich Text und Überschriften. Zum Beispiel können Sie den Extraktor für lange Dokumente mit einfachem Layout wie Mietverträge, Rahmenserviceverträge oder andere ähnliche Dokumente verwenden.	Azure OpenAI	Australien, Europäische Union, Indien, Japan, Singapur, Vereinigtes Königreich, USA, Kanada	❌
Extraktor für lange Dokumente mit komplexem Layout (Vorschau)	Empfohlen für langformatige Dokumente mit komplexen Layouts wie Bildern, handgeschriebenem Text, Formularelementen oder unverwechselbaren Layouts wie Hinweisfeldern.Sie können diesen Extraktor für langformatige Dokumente wie Versicherungspolicen verwenden, die normalerweise komplexe Layouts haben.	Azure OpenAI	USA, Europäische Union, Japan, Singapur	✅
Extraktor für kurze Dokumente mit komplexem Layout (Vorschau)	Empfohlen für kürzere Dokumente (maximal 20 Seiten) mit Bildern, handgeschriebenem Text, Formularelementen oder komplexen Layouts wie Hinweisfeldern.Sie können diesen Extraktor für Dokumente wie Regierungsausweise oder Formulare zur Eingabe im Gesundheitswesen verwenden, die normalerweise kürzer sind, aber komplexere Layouts haben.	Azure OpenAI	USA, Europäische Union, Japan, Singapur	✅

¹ Multimodale Unterstützung bezieht sich auf die Möglichkeit, verschiedene Arten von Dateneingaben zu extrahieren, wie Text, Bilder, handschriftlicher Text usw.

Verwendung des generativen Extraktors

Um schnell die generativen Funktionen der Aktivität Extract Document Data zu nutzen, führen Sie die folgenden Schritte aus:

Fügen Sie eine Extract Document Data- Aktivität hinzu.
Wählen Sie in der Dropdownliste Projekt die Option Generativ vordefiniert aus.
Wählen Sie für Extraktor einen der folgenden Extraktoren aus: Einfacher Layout-Extraktor für lange Dokumente, Komplexer Layout-Extraktor für lange Dokumente oder Komplexer Layout-Extraktor für kurze Dokumente. Die Eigenschaft Details des Dokumenttyps wird im Textkörper der Aktivität angezeigt.

Geben Sie für das Wörterbuch Ihre Anweisungen als Schlüssel-Wert-Paare im Wörterbuch an, wobei:

Der Feldname stellt den Namen des Felds dar, das Sie aus dem Dokument extrahieren möchten. Beispiel: email address.

Die Anweisung stellt die Anweisung dar, welche Informationen Sie dem Extraktor zum Extrahieren des Felds zur Verfügung stellen möchten. Es ist die Beschreibung, die vom generativen Extraktor verwendet wird, um den entsprechenden Wert zu identifizieren. Ein Beispiel für Schlüssel-Wert-Paare finden Sie in der folgenden Tabelle:

Tabelle 2. Beispiele für Schlüssel-Wert-Paare für die Eingabeaufforderung für generative Extraktoren

Name des Felds	Anweisung
Name	„Wie lautet der Name des Kandidaten?“
Aktueller Auftrag	„In welcher Funktion ist der Kandidat derzeit tätig?“
Arbeitgeber	„Was ist der aktuelle Arbeitgeber des Kandidaten?“

Abbildung 1. Details der Schlüssel-Wert-Paare für den generativen Extraktor

War diese Seite hilfreich?

Vorherige (previous)PDF-Seitenbereich extrahieren

WeiterValidierungsaufgabe erstellen und warten

Beschreibung​

Bevor Sie beginnen​

Voraussetzungen​

Eingabeoptionen​

Unterstützte Sprachen für generative Modelle​

Von der Aktivität verwendete Modelle​

Bekannte Einschränkungen​

Projektkompatibilität​

Konfiguration​

Designer-Panel​

Eigenschaften-Panel​

Eingabe​

Ausgabe​

Externe Verbindung​

Unterstützte Modelle​

Verwendung des generativen Extraktors​