- Erste Schritte
- Einstellung und Konfiguration (Setup and Configuration)
- Datenzuordnung
- Datenschutz
Datenextraktoren
Datenextraktoren können verwendet werden, um die relevanten Informationen aus verschiedenen Dokumenten und anderen Quellen abzurufen.
Bei den Dokumenttypen gibt es drei Hauptkategorien:
- Strukturierte Dokumente – Haben ein festes Format und sind einfach zu verarbeiten, sodass Sie die erforderlichen Daten in genauen Feldern ausfüllen können. Diese Dokumente sind so konzipiert, dass sie einen bestimmten Datentyp enthalten. Beispiele für strukturierte Dokumente: Steuerformulare, Umfragen, Fragebögen usw.
- Halbstrukturierte Dokumente – Haben sowohl ein festes Format als auch variable Teile. Halbstrukturierte Dokumente haben kein festes Format in dem Sinne, dass sie nicht an angegebene Datenfelder wie strukturierte Dokumente gebunden sind. Sie enthalten jedoch einen vorhersehbaren Satz von Informationen, z. B. enthält eine Rechnung immer einen eindeutigen Bezeichner, ein Datum oder einen Rechnungsnummer, aber die Platzierung kann je nach Anbieter variieren. Diese Dokumente enthalten hauptsächlich Bezeichnung:Wert-Paare und können auch Absätze enthalten. Beispiel für halbstrukturierte Dokumente: Rechnungen, Belege, Bestellungen, Betriebskostenabrechnungen usw.
- Unstrukturierte Dokumente – Die Informationen sind nicht nach einem festen Format geordnet. Diese Dokumente enthalten hauptsächlich Klartext, die meisten Daten liegen in unstrukturierter Form innerhalb des Texts vor. Beispiele für unstrukturierte Dokumente: Verträge, E-Mails, Gesundheitsdatensätze usw.
Datenextraktoren können sich darin unterscheiden, wie sie Daten aus Dokumenten extrahieren. Diesbezüglich gibt es zwei Arten von Extraktoren:
- Feste Ausgabeextraktoren – Für die Extraktion eines vordefinierten Satzes von Informationen aus einem Dokument trainiert; beispielsweise versucht der Rechnungsextraktor immer, den Firmennamen, die Adresse, die Gesamtsumme usw. zu extrahieren.
- Frage-Antwort-Extraktoren – Sind darauf trainiert, Fragen basierend auf einem bestimmten Kontext zu beantworten. Diese Extraktoren nutzen das Verständnis natürlicher Sprache, um den Text zu analysieren und herauszufinden, welcher Wert genau aus dem Text extrahiert werden muss, um eine geeignete Antwort zu geben oder sogar eine Option aus einer Liste vorgegebener Optionen auszuwählen.
Clipboard AI verwendet den folgenden Satz von Datenextraktoren:
-
Universalextraktor
- Extraktoren für bestimmte Dokumente
- Nur-Text-Extraktor
- Extraktor für Tabellen und Name-Wert-Paare
Der Universalextraktor ist die Standardoption zum Extrahieren von Daten aus Ihren Dokumenten. Es scannt Ihre Daten (Nur-Text oder tabellarisch) und entscheidet die beste Lösung, um sie zu extrahieren. Er verwendet eine Kombination der vorhandenen Extraktoren und ermöglicht auch Abfragen, um die beste Übereinstimmung in Ihren Daten zu finden.
Erfahren Sie, wie Sie mit dem Universalextraktor interagieren.
Die Extraktoren für bestimmte Dokumente sind ein Satz mit fester Ausgabe von Extraktoren, die auf spezifische Dokumenttypen trainiert wurden. Jeder Dokumenttyp wird mit dem entsprechenden Document Understanding Machine Learning-Modell wie folgt extrahiert:
- Rechnung
- Reisepass
- Beleg
- ID-Karte
- W-2-Formular
- Betriebskostenabrechnung
- Bestellung
- Web-/Desktopformulare
Sie können das bevorzugte Document Understanding-Modell basierend auf Ihrem Dokumenttyp auswählen.
Der Nur-Text-Extraktor ist ein Frage-Antwort-Extraktor, der GPT3 verwendet, um Daten aus Klartextdokumenten, Webseiten, E-Mails usw. abzurufen. Er kann entweder für halbstrukturierte Dokumente verwendet werden, um die variablen Teile zu verarbeiten, oder für unstrukturierte Dokumente, bei denen das Layout irrelevant ist.
Dieser Extraktor unterstützt das semantische Verständnis und verfügt neben der Beantwortung von Fragen über weitere erweiterte Funktionen wie Zusammenfassung, maschinelle Übersetzung, Dokumenttypklassifizierung und Stimmungserkennung.