activities

latest

false

Wichtig :

Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde.

Document Understanding-Aktivitäten

Last updated 21. Nov. 2024

Extract Document Data

UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>

Beschreibung

Extrahiert Daten aus einer Eingabedatei oder einem Dokumentdatenobjekt und speichert die Ergebnisse in einem Dokumentdatenobjekt.

Bevor Sie beginnen

Voraussetzungen

Die Aktivität „Extract Document Data“ erfordert Eingabeobjekte vom Typ „Dokumentdaten“ oder „Datei“. Ein möglicher Anwendungsfall für die Verwendung dieser Aktivität ist das Vorhergehen mit einer Aktivität Classify Document, die ein Objekt vom Typ „Dokumentdaten“ generiert.

Eingabeoptionen

Die Aktivität „Extract Document Data“ erhält als Eingabe eine der folgenden Auswahlmöglichkeiten:

Dokumentdaten – aus der Aktivität „Classify Document“
Datei – aus den Aktivitäten „Get File/Folder“ oder „Get Newest Email“

Unterstützte Sprachen für generative Modelle

Die unterstützten Sprachen für die generativen Modelle sind die gleichen wie die verwendete OCR-Engine, die vom Projekt abhängt. Für vordefinierte Projekte wird das OCR-Modul UiPath Document OCR verwendet. Weitere Informationen finden Sie auf der Seite OCR unterstützte Sprachen.

Von der Aktivität verwendete Modelle

Die Aktivität „Extract Document Data“ verwendet Folgendes:

Öffentliche Endpunkte für vorgefertigte Modelle.
Benutzerdefinierte ML-Modelle, die in Document Understanding-App-Projekten bereitgestellt werden.
Generatives Extraktionsmodell.

Projektkompatibilität

Windows | Plattformübergreifend

Konfiguration

Designer-Panel

Projekt – Erfordert, dass Sie Ihr Document Understanding-Projekt aus der Dropdownliste auswählen. Die verfügbaren Optionen sind:
- Vordefiniert – Das Standardprojekt
- Sie können ein benutzerdefiniertes Projekt erstellen, indem Sie Document Understanding aufrufen.
Hinweis: Wenn Sie mehr als 500 Projekte auf Ihrem Mandanten erstellt haben und die Aktivität „Extract Document Data“ verwenden, zeigt UiPath Studio oder Studio Web keine Projekte über die ursprünglichen 500 hinaus an. Daher können diese Projekte nicht verwendet werden.

Extraktor – Wählen Sie einen Extraktor aus Ihrem aktuellen Projekt aus.
- Für das vordefinierte Projekt haben Sie zwei Möglichkeiten:
  - Wählen Sie ein ML-Paket aus. Eine Liste der vortrainierten Modelle, die Sie verwenden können, finden Sie unter Vorgefertigte Modelle.
    Hinweis: Die Aktivität „Extract Document Data“ überschreibt den Dokumenttyp mit dem ausgewählten Extraktor. Dies gilt nicht für generative Modelle.
  - Wählen Sie den generativen Extraktor aus.
    Hinweis: Die an den generativen Extraktor gesendeten Informationen gehen an eine LLM-Modellinstanz. Diese Instanz ist nicht öffentlich verfügbar, speichert die gesendeten Daten nicht und verwendet sie nicht zu Trainingszwecken.
    
    Wichtig:
    Diese Funktion ist derzeit Teil eines Prüfungsprozesses und gilt erst nach Abschluss der Überprüfung als Teil der FedRAMP-Autorisierung. Hier finden Sie die vollständige Liste der Funktionen, die derzeit überprüft werden.
Eingabeaufforderung – Dieses Feld wird angezeigt, wenn Sie die Option Generativ auswählen. Aufforderung zur Identifizierung der zu extrahierenden Felder, die als Schlüssel-Wert-Paare bereitgestellt werden, wobei der Schlüssel den Namen des Felds und der Wert eine Beschreibung des Felds darstellt, die dem Extraktor hilft, den entsprechenden Wert zu identifizieren. Klicken Sie auf das Feld, und Sie erhalten eine Eingabeaufforderung mit den folgenden Optionen, die paarweise bereitgestellt werden:
- Feldname – Erfordert die Eingabe des zu extrahierenden Feldnamens (z. B. Fälligkeitsdatum) (maximal 30 Zeichen)
- Generative Eingabeaufforderung – Erfordert, dass Sie die Eingabeaufforderung als Eingabe für den generativen Extraktor bereitstellen. Die maximale Anzahl der zulässigen Zeichen ist 1000. Die Antwort, das Extraktionsergebnis, auch als Vervollständigung bezeichnet, hat ein Wortlimit von 700. Dies ist auf 700 Wörter begrenzt. Das bedeutet, dass Sie höchstens 700 Wörter aus einer einzelnen Eingabeaufforderung extrahieren können. Wenn Ihre Extraktionsanforderungen diesen Grenzwert überschreiten, können Sie das Dokument auf mehrere Seiten verteilen, sie einzeln verarbeiten und die Ergebnisse anschließend zusammenführen.
Tipp: Bewährte Methoden zur Verwendung von generativen Eingabeaufforderungen finden Sie auf der Seite Generativer Extraktor – Bewährte Methoden .
Eingabe – Erfordert, dass Sie die Datei selbst oder Dokumentdaten angeben, falls Sie in Ihrem Workflow bereits andere Document Understanding-Aktivitäten verwendet haben (z. B. Classify Document).
Wichtig: Die maximale Anzahl von Seiten, die eine Datei haben kann, beträgt 500. Dateien, die diesen Grenzwert überschreiten, können nicht extrahiert werden.

Eigenschaften-Panel

Eingabe

Timeout (Sekunden) – Maximale Ausführungszeit (in Sekunden) für den Aufruf des generativen Modells. Wenn der Vorgang dieses Timeout überschreitet, wird er automatisch beendet, um Verzögerungen oder Hängen zu vermeiden. Diese Eigenschaft wird nur angezeigt, wenn der Generative Extractor als Extraktor ausgewählt wird.
Automatische Validierung – Verwenden Sie diese Option, um die automatische Validierung zu aktivieren, eine Funktion, die hilft, die Ergebnisse für die Datenextraktion anhand eines generativen Modells zu validieren. Der Standardwert für das Feld Automatische Validierung ist False.
- Konfidenz -Schwellenwert – Dieses Feld wird angezeigt, sobald Sie die Automatische Validierung aktivieren. Extraktionsergebnisse, die unter den Schwellenwert fallen, werden mit dem generativen Extraktionsmodell verglichen. Wenn sie übereinstimmen, passt das System die Extraktionskonfidenz an, um den Schwellenwert zu erreichen. Mögliche Schwellenwerte reichen von 0 bis 100.
  Wenn der Wert auf 0 festgelegt ist, wird keine Validierung angewendet. Wenn Sie jedoch einen bestimmten Wert festlegen (von 0 bis 100), prüft das System alle Extraktionsergebnisse unter diesem Wert. Wenn Sie z. B. einen Konfidenzschwellenwert von 80 % festlegen, wendet das System die generative Validierung für Felder mit einer Konfidenz unter 80 % an.
  
  Hinweis: Die automatische Validierung ist nur für spezielle Extraktionsmodelle verfügbar.
Datentyp generieren – Wenn auf True festgelegt, wird angegeben, dass die Ausgabe basierend auf dem ausgewählten Extraktor generiert werden soll, was zu einem IDocumentData<ExtractorType>-Objekt führt. Gibt alternativ bei Festlegung auf False an, dass die Datengenerierung übersprungen werden soll, was zu einem generischen IDocumentData<DictionaryData>-Objekt führt.
Weitere Informationen und Einschränkungen für die beiden Objekttypen finden Sie unter Dokumentdaten .

Ausgabe

Dokumentdaten – Alle extrahierten Felddaten aus der Datei. Informationen können auch von Classify Document empfangen werden.
Unter Dokumentdaten erfahren Sie, wie Dokumentdaten funktionieren und wie die extrahierten Ergebnisse für Felder mit einem oder mehreren Werten verwendet werden.

Verwendung des generativen Extraktors

Um schnell mit den generativen Funktionen der Aktivität Extract Document Data zu beginnen, führen Sie die folgenden Schritte aus:

Fügen Sie eine Aktivität Extract Document Data hinzu.
Wählen Sie in der Dropdownliste Projekt die Option Vordefiniert aus.
Wählen Sie für Extraktor die Option Generative Extractor aus.
Die Eigenschaft Eingabeaufforderung wird im Textkörper der Aktivität angezeigt.

Geben Sie Ihre Anweisungen im Feld Eingabeaufforderung als Schlüssel-Wert-Paare des Wörterbuchs an, wobei:

Schlüssel stellt den Feldnamen dar (Beispiel: E-Mail-Adresse).
Wert stellt die generative Eingabeaufforderung dar: Die Beschreibung, die vom generativen Extraktor verwendet wird, um den entsprechenden Wert zu identifizieren.
Ein Beispiel für Schlüssel-Wert-Paare finden Sie beispielsweise in der folgenden Tabelle:

Tabelle 1. Beispiele für Schlüssel-Wert-Paare für die Eingabeaufforderung des generativen Extraktors
Name des Felds	Generative Aufforderung
Name	„Wie lautet der Name des Kandidaten?“
Aktueller Auftrag	„In welcher Funktion ist der Kandidat derzeit tätig?“
Arbeitgeber	„Was ist der aktuelle Arbeitgeber des Kandidaten?“