- Überblick
- Erste Schritte
- Aktivitäten
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
- Insights-Dashboards
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Überblick
- Document Understanding-Aktivitäten
- Taxonomie – Übersicht
- Taxonomieverwaltung
- Taxonomie – verwandte Aktivitäten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Intelligenter Schlüsselwortklassifizierer
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Machine Learning Classifier
- Generativer Klassifizierer
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- API-Aufrufe
- Modelldetails
- Überblick
- Document Understanding – ML-Paket
- DocumentClassifier – ML-Paket
- ML-Pakete mit OCR-Funktionen
- 1040 – ML-Paket
- 1040 Anlage C – ML-Paket
- 1040 Anlage D – ML-Paket
- 1040 Anlage E – ML-Paket
- 1040x – ML-Paket
- 3949a – ML-Paket
- 4506T – ML-Paket
- 709 – ML-Paket
- 941x – ML-Paket
- 9465 – ML-Paket
- ACORD125 – ML-Paket
- ACORD126 – ML-Paket
- ACORD131 – ML-Paket
- ACORD140 – ML-Paket
- ACORD25 – ML-Paket
- Bank Statements – ML-Paket
- BillsOfLading – ML-Paket
- Certificate of Incorporation – ML-Paket
- Certificates of Origin – ML-Paket
- Checks – ML-Paket
- Children Product Certificate – ML-Paket
- CMS1500 – ML-Paket
- EU Declaration of Conformity – ML-Paket
- Financial Statements – ML-Paket
- FM1003 – ML-Paket
- I9 – ML-Paket
- ID Cards – ML-Paket
- Invoices – ML-Paket
- InvoicesAustralia – ML-Paket
- InvoicesChina – ML-Paket
- Rechnungen Hebräisch – ML-Paket
- InvoicesIndia – ML-Paket
- InvoicesJapan – ML-Paket
- Invoices Shipping – ML-Paket
- Packing Lists – ML-Paket
- Gehaltsabrechnungen (Pay slips) – ML-Paket
- Passports – ML-Paket
- Purchase Orders – ML-Paket
- Zahlungsbelege – ML-Paket
- RemittanceAdvices – ML-Paket
- UB04 – ML-Paket
- Utility Bills – ML-Paket
- Vehicle Titles – ML-Paket
- W2 – ML-Paket
- W9 – ML-Paket
- Andere out-of-the-box ML-Pakete
- Öffentliche Endpunkte
- Einschränkungen für den Datenverkehr
- OCR-Konfiguration
- Pipelines
- OCR-Dienste
- Unterstützte Sprachen
- Deep Learning
- Daten und Sicherheit
- Lizenzierungs- und Gebührenlogik

Document Understanding classic user guide
Taxonomie – Übersicht
Was ist eine Taxonomie
The Taxonomy is the metadata that the Document UnderstandingTM framework considers in each of its steps.
- Eine Taxonomie ist eine Sammlung von Dokumenttypen.
- Ein Dokumenttyp ist die Definition eines logischen Dokumenttyps, der von verschiedenen Geschäftsprozessen verarbeitet werden muss. Beispiele für Dokumenttypen sind Rechnungen, Gesundheitsakten, IRS-Formulare W-2, Verträge usw. Ein Dokumenttyp enthält in der Regel neben einem Namen, einer Gruppe und einer Kategorie (zur leichteren Handhabung) eine Sammlung von Feldern.
- Ein Feld ist eine Information, die von einem bestimmten Dokumenttyp erwartet und erfasst wird.
Eine Taxonomie ist eine hierarchische Struktur, die das Schema der Informationen enthält, die das Document Understanding Framework verwenden wird. Jede Entitätsdefinition (für Dokumenttypen oder Felder) in der Taxonomie hat eine eindeutige ID.
Wie hilft sie bei der Dokumentklassifizierung?
Wenn Sie eingehende Dateien in verschiedene Dokumenttypen klassifizieren möchten, sollte die Taxonomie die Dokumenttypen enthalten, die Sie speziell behandeln möchten. Damit können Sie Ihre Document Understanding-Prozesse basierend auf einem einheitlichen Datenschema konfigurieren: der Struktur Ihrer Taxonomie.
Wie hilft sie bei der Datenextraktion?
Wenn Sie Daten aus bestimmten Dokumenttypen extrahieren möchten, enthält die Taxonomie die Liste der relevanten Felder für die automatische Datenextraktion. Diese ermöglichen die Konfiguration verschiedener Extraktionsmethoden und -regeln erneut basierend auf einem Single-Source-of-Truth-Datenschema: der Struktur Ihres Dokumenttyps.
Feldtypen und Details
Ein Feld kann abgeleitete Teile enthalten: formatierte Informationen, die vom zugrundeliegenden Textwert im Dokument extrahiert oder bearbeitet wurden.
| Feldtyp | Mehrere Werte möglich | Zweck | Abgeleitete Teile für die Formatierung | Zusätzliche Angaben |
|---|---|---|---|---|
| Nummer | Ja | Numerische Werte |
| Keine Angabe |
| MonetaryQuantity | Ja | Amount and currency values |
| Keine Angabe |
| Datum | Ja | Daten |
| Date fields allow for the definition of an Expected Format , which must be an MSDN-compliant date format string (for example, dd-MM-yyyy or MM, dd, yyyy ). Dieses Format kann von der Aktivität Data Extraction Scope verwendet, wenn versucht wird, ein Datum in die Bestandteile „Tag“, „Monat“ und „Jahr“ aufzuschlüsseln. |
| Name | Ja | Personennamen |
| Keine Angabe |
| Address | Ja | Adressen |
| Keine Angabe |
| Set (Satz) | Ja | Definiert eine Liste möglicher Werte aus einem vordefinierten Satz | Keine Angabe | Ein Set-Feld muss die zulässigen Optionen als Werte definieren. Diese sind in der Validierungsstation widergespiegelt. |
| Boolescher | Ja | Ja/Nein-Werte | Keine Angabe | Ein Boolesches Feld kann als mögliche Werte nur Ja oder Nein haben und ist in der Validierungsstation widergespiegelt. |
| Tabelle | Nein | Tabellendaten | Keine Angabe | Ein Tabellenfeld enthält die Definition der Spalten. |
| Tabellenspalte | Nein | Jede Zelle in der Tabelle. | Keine Angabe | Tabellenspalten in einem Tabellenfeld sind als eines der regulären Felder der Komponentenliste definiert. Sie können nicht vom Typ „Tabelle“ sein. |
| FieldGroup | Ja | Organize related fields together. | Child fields or a field group. | Field groups enable the display of hierarchical field structures in Validation Station, allowing logical organization of extracted data. Groups can be single-value, multi-value, or mixed, consisting of fields, field groups, and tables. Field groups with no child fields are excluded from the taxonomy and extraction results sent to Action Center. Field group instances where all child field values are empty are also excluded from extraction results. |
Ausnahmen
You can define default Report as Exception reasons at the taxonomy level. These predefined reasons appear in Validation Station when a business user reports a document as an exception.
Dies ermöglicht es Geschäftsanwendern, Dokumente basierend auf vordefinierten Gründen (den Gründen für Ausnahmen, die in Taxonomiemanager definiert sind) als Ausnahmen zu markieren.
Ein Benutzer kann beispielsweise eine Rechnung erwarten, aber einen Datensatz erhalten, ein Dokument auf Koreanisch erwarten, aber eines auf Russisch erhalten oder ein lesbares Dokument erwarten, aber eines mit sehr schlechter Qualität erhalten.
Die von Ihnen definierten Gründe werden in einer Dropdownliste angezeigt, aus der der Benutzer die am besten geeignete Option auswählen kann. Basierend auf dem ausgewählten Grund kann die Fortsetzung der Automatisierung konfiguriert werden, um zu bestimmen, welcher Verarbeitungspfad als nächstes verwendet werden soll.
Andere in der Taxonomie erfasste Informationen
Die Taxonomie enthält zudem die Liste der Gruppen und Kategorien sowie eine Liste der unterstützten Sprachen, die den zu bearbeitenden Dokumenten zugeordnet werden können. Um beispielsweise Dokumente auf Japanisch und Englisch zu bearbeiten, muss das Tag der unterstützten Sprachen deren jeweiligen Anzeigenamen und den Sprachencode enthalten. Für Ausnahmefälle empfehlen wir, eine nicht bestimmte Sprache (Code und) hinzuzufügen.
Taxonomie-Erweiterungsmethoden
Serialisieren (Serialize) ()
Bei Aufruf mit einem DocumentTaxonomy-Objekt gibt die Serialize()-Methode eine JSON-Darstellung des Objekts zurück, sodass es gespeichert und zur späteren Verwendung wieder aufgerufen werden kann.
Deserialisieren (Deserialize) (String))
Die statische Erweiterung DocumentTaxonomy.Deserialize(jsonString) gibt ein Objekt DocumentTaxonomy zurück, das die mit JSON verschlüsselten Daten enthält, die als Parameter übergeben wurden.
Felder abrufen (GetFields (String))
Called on a DocumentTaxonomy object, the GetFields() method called with a DocumentTypeId string returns a list of fields defined within that document type.
Wie die Taxonomie Ihres Projekts erstellt und bearbeitet wird
Once the UiPath.IntelligentOCR.Activities package is installed in your project in UiPath® Studio, a Taxonomy Manager button appears in the main ribbon of Studio's Design tab. Use the Taxonomy Manager wizard to edit your project taxonomy.
Die Taxonomie wird in einer Datei in Ihrem UiPath Studio-Projekt im Ordner DocumentProcessing und in der taxonomy.json-Datei gespeichert.
The file is automatically created when you first open the Taxonomy Manager wizard. You can check the exact location of the file in the Taxonomy Manager, by hovering over the
button. Alternatively, each time you open the Taxonomy Manager, a pop-up message will appear in the upper right corner, informing you of the location of the file. When a project is published from Studio, the taxonomy will be published as well as an artifact of the project.
Die taxonomy.json-Datei ist für jedes Projekt eindeutig, kann aber wiederverwendet werden, wenn Sie sie manuell in ein neues Projekt kopieren. Dazu müssen Sie einfach ein neues Projekt erstellen, dann zum Projektordner wechseln und die Datei mit der Taxonomie Ihrer Wahl in den richtigen Speicherort (in den Ordner DocumentProcessing) kopieren.
For data integrity purposes, we recommend you always edit the taxonomy using Taxonomy Manager.
Wie die Taxonomie in Ihrem Projekt verwendet wird
Die Taxonomie für das Document Understanding ist als Objekt im gesamten Document Understanding-Framework erforderlich.
The simplest and most convenient way to load your object is by using the Load Taxonomy activity. Once your taxonomy object is loaded, you can use it in all subsequent framework components requiring it.
Erweiterte Anwendungsfälle
- Wenn Sie Ihre Taxonomie an einem anderen Ort speichern, können Sie sie weiterhin in Ihr Projekt laden (sobald Sie den String-Inhalt der Taxonomiedatei erhalten haben, z. B. in einer
myTaxonomyContentString-Variablen), indem Sie eine einfache Assign-Aktivität wie folgt verwenden:
myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)
- Wenn Ihr Anwendungsfall dies erfordert, dann denken Sie daran, dass die Taxonomie ein POCO (Plain Old Class Object) ist, das bei Bedarf sogar während der Ausführung bearbeitet werden kann.
- Was ist eine Taxonomie
- Wie hilft sie bei der Dokumentklassifizierung?
- Wie hilft sie bei der Datenextraktion?
- Feldtypen und Details
- Ausnahmen
- Andere in der Taxonomie erfasste Informationen
- Taxonomie-Erweiterungsmethoden
- Serialisieren (Serialize) ()
- Deserialisieren (Deserialize) (String))
- Felder abrufen (GetFields (String))
- Wie die Taxonomie Ihres Projekts erstellt und bearbeitet wird
- Wie die Taxonomie in Ihrem Projekt verwendet wird
- Erweiterte Anwendungsfälle