- Überblick
- Verträge zur Dokumentverarbeitung
- Versionshinweise
- Über die DocumentProcessing-Verträge
- Box-Klasse
- IPersistedActivity-Schnittstelle
- PrettyBoxConverter-Klasse
- IClassifierActivity-Schnittstelle
- IClassifierCapabilitiesProvider-Schnittstelle
- ClassifierDocumentType-Klasse
- ClassifierResult-Klasse
- ClassifierCodeActivity-Klasse
- ClassifierNativeActivity-Klasse
- ClassifierAsyncCodeActivity-Klasse
- ClassifierDocumentTypeCapability-Klasse
- ExtractorAsyncCodeActivity-Klasse
- ExtractorCodeActivity-Klasse
- ExtractorDocumentType-Klasse
- ExtractorDocumentTypeCapabilities-Klasse
- ExtractorFieldCapability-Klasse
- ExtractorNativeActivity-Klasse
- ExtractorResult-Klasse
- ICapabilitiesProvider-Schnittstelle
- IExtractorActivity-Schnittstelle
- ExtractorPayload-Klasse
- DocumentActionPriority-Enumeration
- DocumentActionData-Klasse
- DocumentActionStatus-Enumeration
- DocumentActionType-Enumeration
- DocumentClassificationActionData-Klasse
- DocumentValidationActionData-Klasse
- UserData-Klasse
- Document-Klasse
- DocumentSplittingResult-Klasse
- DomExtensions-Klasse
- Page-Klasse
- PageSection-Klasse
- Polygon-Klasse
- PolygonConverter-Klasse
- Metadatenklasse
- WordGroup-Klasse
- Word-Klasse
- ProcessingSource-Enumeration
- ResultsTableCell-Klasse
- ResultsTableValue-Klasse
- ResultsTableColumnInfo-Klasse
- ResultsTable-Klasse
- Rotation-Enumeration
- SectionType-Enumeration
- WordGroupType-Enumeration
- IDocumentTextProjection-Schnittstelle
- ClassificationResult-Klasse
- ExtractionResult-Klasse
- ResultsDocument-Klasse
- ResultsDocumentBounds-Klasse
- ResultsDataPoint-Klasse
- ResultsValue-Klasse
- ResultsContentReference-Klasse
- ResultsValueTokens-Klasse
- ResultsDerivedField-Klasse
- ResultsDataSource-Enumeration
- ResultConstants-Klasse
- SimpleFieldValue-Klasse
- TableFieldValue-Klasse
- DocumentGroup-Klasse
- DocumentTaxonomy-Klasse
- DocumentType-Klasse
- Field-Klasse
- FieldType-Enumeration
- LanguageInfo-Klasse
- MetadataEntry-Klasse
- TextType-Aufzählung
- TypeField-Klasse
- ITrackingActivity-Schnittstelle
- ITrainableActivity-Schnittstelle
- ITrainableClassifierActivity-Schnittstelle
- ITrainableExtractorActivity-Schnittstelle
- TrainableClassifierAsyncCodeActivity-Klasse
- TrainableClassifierCodeActivity-Klasse
- TrainableClassifierNativeActivity-Klasse
- TrainableExtractorAsyncCodeActivity-Klasse
- TrainableExtractorCodeActivity-Klasse
- TrainableExtractorNativeActivity-Klasse
- Document Understanding Digitizer
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Versionshinweise
- Über das Document Understanding-Aktivitätspaket
- Projektkompatibilität
- PDF-Passwort festlegen
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- PDF-Seitenbereich extrahieren
- Extract Document Data
- Validierungsaufgabe erstellen und warten
- Wait for Validation Task and Resume
- Create Validation Task
- Dokument klassifizieren (Classify Document)
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Wait For Classification Validation Task And Resume
- IntelligentOCR
- Versionshinweise
- Über das IntelligentOCR-Aktivitätspaket
- Projektkompatibilität
- Konfigurieren der Authentifizierung
- Taxonomie laden (Load Taxonomy)
- Digitalisieren von Dokumenten
- Dokumentbereich klassifizieren (Classify Document Scope)
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Document Understanding-Projektklassifizierer
- Intelligenter Schlüsselwortklassifizierer
- Create Document Validation Action
- Wait For Document Classification Action And Resume
- Klassifizierer-Scope trainieren
- Keyword Based Classifier Trainer
- Intelligent Keyword Classifier Trainer
- Datenextraktionsumfang
- Document Understanding-Projektextraktor
- Regex Based Extractor
- Form Extractor
- Extraktor für intelligente Formulare
- Aktuelle Validierungsstation
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Train Extractors Scope
- Extraktionsergebnisse exportieren
- ML-Services
- OCR
- OCR-Verträge
- Versionshinweise
- Über die OCR-Verträge
- Projektkompatibilität
- IOCRActivity-Schnittstelle
- OCRAsyncCodeActivity-Klasse
- OCRCodeActivity-Klasse
- OCRNativeActivity-Klasse
- Character-Klasse
- OCRResult-Klasse
- Word-Klasse
- FontStyles-Enumeration
- OCRRotation-Enumeration
- OCRCapabilities-Klasse
- OCRScrapeBase-Klasse
- OCRScrapeFactory-Klasse
- ScrapeControlBase-Klasse
- ScrapeEngineUsages-Enumeration
- ScrapeEngineBase
- ScrapeEngineFactory-Klasse
- ScrapeEngineProvider-Klasse
- OmniPage
- PDF
- [Nicht aufgeführt] Abbyy
- Versionshinweise
- Über das Abbyy-Aktivitätspaket
- Projektkompatibilität
- Abbyy OCR
- Abbyy Cloud OCR
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Dokument klassifizieren (Classify Document)
- Dokument verarbeiten (Process Document)
- Dokument validieren (Validate Document)
- Dokument exportieren (Export Document)
- Feld erhalten (Get Field)
- Tabelle erhalten (Get Table)
- Vorbereiten der Validierungsstationsdaten
- [Nicht aufgeführt] Abbyy Embedded
Document Understanding-Aktivitäten
Dokument klassifizieren (Classify Document)
UiPath.IntelligentOCR.StudioWeb.Activities.ClassifyDocument
Sie können diese Aktivität verwenden, um Dokumente zu klassifizieren, indem Sie einen gewünschten Klassifizierer und ein Dokument auswählen, das Sie klassifizieren möchten.
Die unterstützten Sprachen für die generativen Modelle sind die gleichen wie die verwendete OCR-Engine. Weitere Informationen finden Sie auf der Seite Von der OCR unterstützte Sprachen .
Wenn diese Aktivität nicht die erste Document Understanding-Aktivität ist, die Teil eines Studio-Workflows ist, sollte die Eingabe Dokumentdaten sein. Datei sollte nur als Eingabe verwendet werden, wenn die Aktivität der erste Document Understanding-Teil eines Studio Workflows ist.
Designer-Panel
- Eingabe – Geben Sie die Eingabedatei oder das Dokumentdatenobjekt an.
Wichtig: Die maximale Anzahl von Seiten, die eine Datei haben kann, beträgt 500. Dateien, die diesen Grenzwert überschreiten, können nicht klassifiziert werden.Tipp: Wenn Ihre Dateien nicht als Variable vom Typ
IResource
gespeichert werden, besteht die Möglichkeit, eine Konvertierung durchzuführen. Verwenden Sie dafürLocalResource.FromPath(<reference_to_the_file>)
im Eigenschaftsfeld Eingabe.Stellen Sie sich ein Szenario vor, in dem Sie eine Liste von Dateien mithilfe einer For Each-Aktivität durchlaufen. Angenommen,currentItem
ist Ihre Iterationsvariable. UmcurrentItem
inIResource
zu konvertieren, fügen SieLocalResource.FromPath(currentItem)
in das Eingabefeld ein. - Document Understanding-Projekt – Erfordert, dass Sie Ihr Document Understanding-Projekt aus dem Dropdownmenü auswählen. Die verfügbaren Optionen sind:
- Vordefiniert – Projekt, das vortrainierte spezielle Modelle verwendet, die für Standardszenarien empfohlen werden.
- Vorhandenes Projekt aus dem Mandanten und Ordner, mit dem Sie verbunden sind
- Sie können ein neues Projekt erstellen, indem Sie das Symbol + auswählen.
Hinweis: Wenn Sie mehr als 500 Projekte auf Ihrem Mandanten erstellt haben und die Aktivität Classify Document verwenden, zeigt UiPath Studio oder Studio Web keine Projekte über die ursprünglichen 500 hinaus an. Daher können diese Projekte nicht verwendet werden. - Klassifizierer – Wenn Sie das vordefinierte Projekt verwenden, können Sie den gewünschten Document Understanding-Klassifizierer aus dem Dropdownmenü auswählen.
Hinweis: Die an den Generative Classifier gesendeten Daten werden an eine LLM-Modellinstanz gesendet, die nicht öffentlich verfügbar ist, werden nicht außerhalb von ihr verwendet und nach der Verarbeitung nicht gespeichert oder für Training verwendet.
- Für das vordefinierte Projekt haben Sie zwei Optionen:
- ML-Klassifizierung – ML-basierter Klassifizierer.
- Generativer Klassifizierer – Der generative Klassifizierertyp.
Wichtig:
Diese Funktion ist derzeit Teil eines Prüfungsprozesses und gilt erst nach Abschluss der Überprüfung als Teil der FedRAMP-Autorisierung. Hier finden Sie die vollständige Liste der Funktionen, die derzeit überprüft werden.
- Eingabeaufforderung – Anweisungen zur Identifizierung von Dokumenttypen, bereitgestellt als Schlüssel-Wert-Paare, wobei der Schlüssel den Namen des Dokumenttyps und der Wert eine Beschreibung dafür darstellt, was dem Klassifizierer hilft, solche Dokumente zu identifizieren.
- Dokumenttyp – Geben Sie den Namen des Dokumenttyps an, der als Klassifizierungsergebnis verwendet werden soll (höchstens 30 Zeichen).
- Generative Aufforderung – Erfordert, dass Sie Anweisungen für den Generativen Klassifizierer angeben, wie der Dokumenttyp identifiziert werden kann. Die maximale Anzahl der zulässigen Zeichen ist 1000.
- Eingabeaufforderung – Anweisungen zur Identifizierung von Dokumenttypen, bereitgestellt als Schlüssel-Wert-Paare, wobei der Schlüssel den Namen des Dokumenttyps und der Wert eine Beschreibung dafür darstellt, was dem Klassifizierer hilft, solche Dokumente zu identifizieren.
- Für das vordefinierte Projekt haben Sie zwei Optionen:
- Version (Vorschau) – Verwenden Sie diese Eigenschaft, wenn Sie ein vorhandenes modernes Document Understanding-Projekt verwenden. Wählen Sie das Tag aus, das der Projektversion entspricht, aus der Sie Daten verarbeiten möchten. Wenn Sie beispielsweise das Produktions -Tag auswählen, das Version 3 zugewiesen ist, verarbeitet die Aktivität Daten aus Version 3 Ihres Projekts in der Produktionsumgebung.
Der Standardwert für Version ist Staging. Wenn das Tag Staging im ausgewählten Projekt nicht vorhanden ist, ist der Standardwert Production.
Nachdem Sie ein Tag ausgewählt haben, zeigt die Aktivität eine Liste der unterstützten Dokumenttypen für diese Version an.
Eigenschaften-Panel
Erweiterte Optionen
- Mindestkonfidenz – Geben Sie den Mindestkonfidenzschwellenwert an, auf dessen Grundlage ein Dokumenttyp während der Klassifizierung zugewiesen wird. Wenn die Konfidenzpunktzahl eines Dokuments unter diesen Schwellenwert fällt, wird sein Dokumenttyp als „unbekannt“ gemeldet.
Tipp: Die meisten Dokumenttypen generieren eine Vorhersage mit einem Konfidenzniveau. Das Festlegen dieser Eigenschaft verhindert falsch positive Ergebnisse, indem nur die Vorhersagen mit einem Konfidenzniveau über dem Schwellenwert berücksichtigt werden. Sie können ein optimales Konfidenzniveau ermitteln, indem Sie verschiedene Dokumente in Ihrem Workflow testen, die Ergebnisse z. B. in einer Excel-Tabelle aufzeichnen und dann analysieren, welcher Schwellenwert am genauesten ist.
Eingabe
- Timeout (Sekunden) – Maximale Ausführungszeit (in Sekunden) für den Aufruf des generativen Modells. Wenn der Vorgang dieses Timeout überschreitet, wird er automatisch beendet, um Verzögerungen oder Hängen zu vermeiden. Diese Eigenschaft wird nur angezeigt, wenn der Generative Classifier als Klassifizierer ausgewählt ist.
Ausgabe
- Dokumentdaten – Alle validierten extrahierten Felddaten aus der Datei.
Um schnell die generativen Funktionen der Aktivität Classify Document zu nutzen, führen Sie die folgenden Schritte aus:
- Fügen Sie eine Aktivität Classify Document hinzu
- Wählen Sie in der Dropdownliste Projekt die Option Vordefiniert aus.
- Wählen Sie für Klassifizierer die Option Generativer Klassifizierer aus.
Die Eigenschaft Eingabeaufforderung wird im Textkörper der Aktivität angezeigt.
- Geben Sie Ihre Anweisungen im Feld Eingabeaufforderung als Schlüssel-Wert-Paare des Wörterbuchs an, wobei:
- Schlüssel stellt den Dokumenttyp dar (Beispiel: CV).
- Wert stellt die generative Eingabeaufforderung dar: Die Beschreibung, die vom generativen Klassifizierer zur Identifizierung der Dokumenttypen verwendet wird.
Ein Beispiel für Schlüssel-Wert-Paare finden Sie beispielsweise in der folgenden Tabelle:
Tabelle 1. Schlüssel-Wert-Paare, die als Eingabeaufforderung für den generativen Klassifizierer verwendet werden Document type Generative Aufforderung CV „Suchen Sie nach gängigen CV-Schlüsselwörtern wie „Bildung“, „Fähigkeiten“ und „Erfahrung“.“ Rechnung „Suchen Sie nach gängigen Feldnamen wie „Rechnungsnummer“, „Rechnungsnummer“ oder „Gesamtbetrag“.“
Abbildung 1. Schlüssel-Wert-Paare, die als Eingabeaufforderung für den generativen Klassifizierer verwendet werden