- Überblick
- Einstellung und Konfiguration (Setup and Configuration)
- Datenzuordnung
- Datenzuordnung
- Datenextraktoren
- Transformationen
- Datenschutz
Datenextraktoren
Datenextraktoren können verwendet werden, um die relevanten Informationen aus verschiedenen Dokumenten und anderen Quellen abzurufen.
Bei den Dokumenttypen gibt es drei Hauptkategorien:
- Strukturierte Dokumente – Haben ein festes Format und sind einfach zu verarbeiten, sodass Sie die erforderlichen Daten in genauen Feldern ausfüllen können. Diese Dokumente sind so konzipiert, dass sie einen bestimmten Datentyp enthalten. Beispiele für strukturierte Dokumente: Steuerformulare, Umfragen, Fragebögen usw.
- Halbstrukturierte Dokumente – Haben sowohl ein festes Format als auch variable Teile. Halbstrukturierte Dokumente haben kein festes Format in dem Sinne, dass sie nicht an angegebene Datenfelder wie strukturierte Dokumente gebunden sind. Sie enthalten jedoch einen vorhersehbaren Satz von Informationen, z. B. enthält eine Rechnung immer einen eindeutigen Bezeichner, ein Datum oder einen Rechnungsnummer, aber die Platzierung kann je nach Anbieter variieren. Diese Dokumente enthalten hauptsächlich Bezeichnung:Wert-Paare und können auch Absätze enthalten. Beispiel für halbstrukturierte Dokumente: Rechnungen, Belege, Bestellungen, Betriebskostenabrechnungen usw.
- Unstrukturierte Dokumente – Die Informationen sind nicht nach einem festen Format geordnet. Diese Dokumente enthalten hauptsächlich Klartext, die meisten Daten liegen in unstrukturierter Form innerhalb des Texts vor. Beispiele für unstrukturierte Dokumente: Verträge, E-Mails, Gesundheitsdatensätze usw.
Datenextraktoren können sich darin unterscheiden, wie sie Daten aus Dokumenten extrahieren. Diesbezüglich gibt es zwei Arten von Extraktoren:
- Feste Ausgabeextraktoren – Für die Extraktion eines vordefinierten Satzes von Informationen aus einem Dokument trainiert; beispielsweise versucht der Rechnungsextraktor immer, den Firmennamen, die Adresse, die Gesamtsumme usw. zu extrahieren.
- Frage-Antwort-Extraktoren – Sind darauf trainiert, Fragen basierend auf einem bestimmten Kontext zu beantworten. Diese Extraktoren nutzen das Verständnis natürlicher Sprache, um den Text zu analysieren und herauszufinden, welcher Wert genau aus dem Text extrahiert werden muss, um eine geeignete Antwort zu geben oder sogar eine Option aus einer Liste vorgegebener Optionen auszuwählen.
Nachdem wir nun die wesentlichen Unterschiede zwischen Dokumentlayouts und Datenextraktortypen erklärt haben, sehen wir uns jetzt die Datenextraktoren von Clipboard AI an:
- Extraktoren für bestimmte Dokumente
- Nur-Text-Extraktor
- Extraktor für Tabellen und Name-Wert-Paare
- Halbstrukturierter Extraktor
Beim Kopieren der Daten wird automatisch ein Extraktor ausgewählt. Die Ergebnisse der einzelnen Extraktoren unterscheiden sich erheblich. Daher wird dringend empfohlen, sie alle auszuprobieren und zu sehen, welcher Extraktor für Ihr Dokument am besten geeignet ist.
Um einen anderen Extraktor als den automatisch ausgewählten zu verwenden, wählen Sie unten in der Zuordnung die Schaltfläche Typ ändern aus. Dadurch wird der Bereich für die Datenextraktoren geöffnet, in dem Sie einen anderen Extraktor aus der Liste auswählen können. Sobald ein neuer Extraktor ausgewählt wurde, werden die Datenfelder in der Zuordnung aktualisiert und Sie können die Ergebnisse vergleichen.
Die Extraktoren für bestimmte Dokumente sind ein fester Ausgabesatz von Extraktoren, die auf spezifische Dokumenttypen trainiert wurden. Jeder Dokumenttyp wird mit dem entsprechenden Document Understanding Machine Learning-Modell wie folgt extrahiert:
- Rechnung
- Reisepass
- Beleg
- ID-Karte
- W-2-Formular
- Betriebskostenabrechnung
- Bestellung
- Web-/Desktopformulare
Der automatisch identifizierte Dokumenttyp wird hervorgehoben und mit einem Stern gekennzeichnet. Verwenden Sie für alle anderen Dokumenttypen, mit Ausnahme der aufgeführten, einen der anderen Extraktoren.
Der Nur-Text-Extraktor ist ein Frage-Antwort-Extraktor, der GPT3 verwendet, um Daten aus Klartextdokumenten, Webseiten, E-Mails usw. abzurufen. Er kann entweder für halbstrukturierte Dokumente verwendet werden, um die variablen Teile zu verarbeiten, oder für unstrukturierte Dokumente, bei denen das Layout irrelevant ist.
Dieser Extraktor unterstützt das semantische Verständnis und verfügt neben der Beantwortung von Fragen über weitere erweiterte Funktionen wie Zusammenfassung, maschinelle Übersetzung, Dokumenttypklassifizierung und Stimmungserkennung.
Der Extraktor für Tabellen und Name-Wert-Paare ist ein fester Ausgabeextraktor, der am besten für Dokumente funktioniert, die Bezeichnung:Wert-Paare (z. B. Name: John, Nachname: Doe) und Tabellen enthalten.
Der halbstrukturierte Extraktor ist ein Frage-Antwort-Extraktor und kann, wie der Name schon sagt, Daten aus halbstrukturierten Dokumenten extrahieren, die sich von denen unterscheiden, die von den Extraktoren für spezifische Dokumente abgedeckt werden. Sie können diesen Extraktor beispielsweise für Bankauszüge, Kaufverträge, Steuerformulare usw. verwenden.