- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Taxonomie – Übersicht
- Taxonomieverwaltung
- Taxonomie – verwandte Aktivitäten
- ML-Pakete
- Pipelines
- Dokumentmanager
- OCR-Dienste
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Deep Learning
- Lizenzierung
- Referenzen
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
Taxonomie – Übersicht
Die Taxonomie beruht auf Metadaten, die das Document Understanding-Framework in jedem seiner Schritte berücksichtigt.
-
Eine Taxonomie ist eine Sammlung von Dokumenttypen.
-
Ein Dokumenttyp ist die Definition eines logischen Dokumenttyps, der von verschiedenen Geschäftsprozessen verarbeitet werden muss. Beispiele für Dokumenttypen sind Rechnungen, Gesundheitsakten, IRS-Formulare W-2, Verträge usw. Ein Dokumenttyp enthält in der Regel neben einem Namen, einer Gruppe und einer Kategorie (zur leichteren Handhabung) eine Sammlung von Feldern.
- Ein Feld ist eine Information, die von einem bestimmten Dokumenttyp erwartet und erfasst wird.
-
Wie oben gesehen, ist eine Taxonomie eine hierarchische Struktur, die das Schema der Informationen enthält, die das Document Understanding-Framework durchgängig verwenden wird. Jede Entitätsdefinition (für Dokumenttypen oder Felder) in der Taxonomie hat eine eindeutige ID.
Wenn Sie eingehende Dateien in verschiedene Dokumenttypen klassifizieren möchten, sollte die Taxonomie die Dokumenttypen enthalten, die Sie speziell behandeln möchten. Damit können Sie Ihre Document Understanding-Prozesse basierend auf einem einheitlichen Datenschema konfigurieren: der Struktur Ihrer Taxonomie.
Wenn Sie Daten aus bestimmten Dokumenttypen extrahieren möchten, enthält die Taxonomie die Liste der relevanten Felder für die automatische Datenextraktion. Diese ermöglichen die Konfiguration verschiedener Extraktionsmethoden und -regeln erneut basierend auf einem Single-Source-of-Truth-Datenschema: der Struktur Ihres Dokumenttyps.
Ein Feld kann abgeleitete Teile enthalten: formatierte Informationen, die vom zugrundeliegenden Textwert im Dokument extrahiert oder bearbeitet wurden.
Feldtyp |
Mehrere Werte möglich |
Zweck |
Abgeleitete Teile für die Formatierung |
Zusätzliche Angaben |
---|---|---|---|---|
Text |
Ja |
Textangaben |
Keine Angabe |
Keine Angabe |
Nummer |
Ja |
Numerische Werte |
Wert |
Keine Angabe |
Datum |
Ja |
Daten |
|
Datumsfelder ermöglichen die Definition eines Erwarteten Formats, bei dem es sich um eine MSDN-konforme Datumsformatzeichenfolge handeln muss (z. B.
dd-MM-yyyy oder MM, dd, yyyy ).
Dieses Format kann von der Aktivität Data Extraction Scope verwendet, wenn versucht wird, ein Datum in die Bestandteile „Tag“, „Monat“ und „Jahr“ aufzuschlüsseln. |
Name |
Ja |
Personennamen |
|
Keine Angabe |
Address |
Ja |
Adressen |
|
Keine Angabe |
Set (Satz) |
Ja |
Definiert eine Liste möglicher Werte aus einem vordefinierten Satz |
Keine Angabe |
Ein Set-Feld muss die zulässigen Optionen als Werte definieren. Diese sind in der Validierungsstation widergespiegelt. |
Boolescher |
Ja |
Ja/Nein-Werte |
Keine Angabe |
Ein Boolesches Feld kann als mögliche Werte nur Ja oder Nein haben und ist in der Validierungsstation widergespiegelt. |
Tabelle |
Nein |
Tabellendaten |
Keine Angabe |
Ein Tabellenfeld enthält die Definition der Spalten. |
Tabellenspalte |
Nein |
Jede Zelle in der Tabelle. |
Keine Angabe |
Tabellenspalten in einem Tabellenfeld sind als eines der regulären Felder der Komponentenliste definiert. Sie können nicht vom Typ „Tabelle“ sein. |
und
) hinzuzufügen.
DocumentTaxonomy
-Objekt gibt die Serialize()
-Methode eine JSON
-Darstellung des Objekts zurück, sodass es gespeichert und zur späteren Verwendung wieder aufgerufen werden kann.
DocumentTaxonomy.Deserialize(jsonString)
gibt ein Objekt DocumentTaxonomy
zurück, das die mit JSON verschlüsselten Daten enthält, die als Parameter übergeben wurden.
Sobald das UiPath.IntelligentOCR.Activities-Paket in Ihrem Projekt in UiPath Studio installiert wurde, wird im Hauptband der Design-Registerkarte von Studio die Schaltfläche für den Taxonomiemanager angezeigt. Verwenden Sie den Taxonomiemanager-Assistenten, um Ihre Projekttaxonomie zu bearbeiten.
taxonomy.json
-Datei gespeichert.
Die Datei wird automatisch erstellt, wenn Sie den Taxonomiemanager-Assistenten zum ersten Mal öffnen. Sie können den genauen Speicherort der Datei im Taxonomiemanager sehen, wenn Sie mit der Maus auf die Schaltfläche zeigen. Alternativ wird jedes Mal, wenn Sie den Taxonomiemanager öffnen, in der oberen rechten Ecke ein Popup angezeigt, das Sie über den Speicherort der Datei informiert. Wenn ein Projekt von Studio veröffentlicht wird, werden die Taxonomie sowie ein Artefakt des Projekts veröffentlicht.
taxonomy.json
-Datei ist für jedes Projekt eindeutig, kann aber wiederverwendet werden, wenn Sie sie manuell in ein neues Projekt kopieren. Dazu müssen Sie einfach ein neues Projekt erstellen, dann zum Projektordner wechseln und die Datei mit der Taxonomie Ihrer Wahl in den richtigen Speicherort (in den Ordner DocumentProcessing) kopieren.
Die Taxonomie für das Document Understanding ist als Objekt im gesamten Document Understanding-Framework erforderlich.
Die einfachste und bequemste Möglichkeit, Ihr Objekt zu laden, ist die Verwendung der Aktivität Load Taxonomy. Sobald Ihr Taxonomieobjekt geladen wurde, können Sie es in allen nachfolgenden Framework-Komponenten verwenden, die es erfordern.
-
Wenn Sie Ihre Taxonomie an einem anderen Ort speichern, können Sie sie weiterhin in Ihr Projekt laden (sobald Sie den String-Inhalt der Taxonomiedatei erhalten haben, z. B. in einer
myTaxonomyContentString
-Variablen), indem Sie eine einfache Assign-Aktivität wie folgt verwenden:myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)
- Wenn Ihr Anwendungsfall dies erfordert, dann denken Sie daran, dass die Taxonomie ein POCO (Plain Old Class Object) ist, das bei Bedarf sogar während der Ausführung bearbeitet werden kann.
- Was ist eine Taxonomie
- Wie hilft sie bei der Dokumentklassifizierung?
- Wie hilft sie bei der Datenextraktion?
- Feldtypen und Details
- Andere in der Taxonomie erfasste Informationen
- Taxonomie-Erweiterungsmethoden
- Serialisieren (Serialize) ()
- Deserialisieren (Deserialize) (String))
- Felder abrufen (GetFields (String))
- Wie die Taxonomie Ihres Projekts erstellt und bearbeitet wird
- Wie die Taxonomie in Ihrem Projekt verwendet wird
- Erweiterte Anwendungsfälle