Clipboard AI – Datenextraktoren

clipboard-ai

latest

false

Clipboard AI: Benutzerhandbuch

Erste Schritte
Einstellung und Konfiguration (Setup and Configuration)
Datenzuordnung
Datenschutz
- Datenschutz

Wichtig :

Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Datenextraktoren

Datenextraktoren können verwendet werden, um die relevanten Informationen aus verschiedenen Dokumenten und anderen Quellen abzurufen.

Bei den Dokumenttypen gibt es drei Hauptkategorien:

Strukturierte Dokumente – Haben ein festes Format und sind einfach zu verarbeiten, sodass Sie die erforderlichen Daten in genauen Feldern ausfüllen können. Diese Dokumente sind so konzipiert, dass sie einen bestimmten Datentyp enthalten. Beispiele für strukturierte Dokumente: Steuerformulare, Umfragen, Fragebögen usw.
Halbstrukturierte Dokumente – Haben sowohl ein festes Format als auch variable Teile. Halbstrukturierte Dokumente haben kein festes Format in dem Sinne, dass sie nicht an angegebene Datenfelder wie strukturierte Dokumente gebunden sind. Sie enthalten jedoch einen vorhersehbaren Satz von Informationen, z. B. enthält eine Rechnung immer einen eindeutigen Bezeichner, ein Datum oder einen Rechnungsnummer, aber die Platzierung kann je nach Anbieter variieren. Diese Dokumente enthalten hauptsächlich Bezeichnung:Wert-Paare und können auch Absätze enthalten. Beispiel für halbstrukturierte Dokumente: Rechnungen, Belege, Bestellungen, Betriebskostenabrechnungen usw.
Unstrukturierte Dokumente – Die Informationen sind nicht nach einem festen Format geordnet. Diese Dokumente enthalten hauptsächlich Klartext, die meisten Daten liegen in unstrukturierter Form innerhalb des Texts vor. Beispiele für unstrukturierte Dokumente: Verträge, E-Mails, Gesundheitsdatensätze usw.

Datenextraktoren können sich darin unterscheiden, wie sie Daten aus Dokumenten extrahieren. Diesbezüglich gibt es zwei Arten von Extraktoren:

Feste Ausgabeextraktoren – Für die Extraktion eines vordefinierten Satzes von Informationen aus einem Dokument trainiert; beispielsweise versucht der Rechnungsextraktor immer, den Firmennamen, die Adresse, die Gesamtsumme usw. zu extrahieren.
Frage-Antwort-Extraktoren – Sind darauf trainiert, Fragen basierend auf einem bestimmten Kontext zu beantworten. Diese Extraktoren nutzen das Verständnis natürlicher Sprache, um den Text zu analysieren und herauszufinden, welcher Wert genau aus dem Text extrahiert werden muss, um eine geeignete Antwort zu geben oder sogar eine Option aus einer Liste vorgegebener Optionen auszuwählen.

Clipboard AI verwendet den folgenden Satz von Datenextraktoren:

Universalextraktor
Extraktoren für bestimmte Dokumente
Nur-Text-Extraktor
Extraktor für Tabellen und Name-Wert-Paare

Der Universalextraktor

Der Universalextraktor ist die Standardoption zum Extrahieren von Daten aus Ihren Dokumenten. Es scannt Ihre Daten (Klartext oder tabellarisch) und entscheidet die beste Lösung, um sie zu extrahieren. Er verwendet eine Kombination der vorhandenen Extraktoren und ermöglicht auch Abfragen, um die beste Übereinstimmung in Ihren Daten zu finden.

Erfahren Sie, wie Sie mit dem Universalextraktor interagieren.

Extraktoren für bestimmte Dokumente

Die Extraktoren für bestimmte Dokumente sind ein Satz von Extraktoren mit fester Ausgabe, die auf spezifische Dokumenttypen trainiert wurden. Jeder Dokumenttyp wird mit dem entsprechenden Document Understanding Machine Learning-Modell wie folgt extrahiert:

Rechnung
Reisepass
Beleg
ID-Karte
W-2-Formular
Betriebskostenabrechnung
Bestellung
Web-/Desktopformulare

Sie können das bevorzugte Document Understanding-Modell basierend auf Ihrem Dokumenttyp auswählen.

Nur-Text-Extraktor

Der Nur-Text-Extraktor ist ein Frage-Antwort-Extraktor, der GPT3 verwendet, um Daten aus Klartextdokumenten, Webseiten, E-Mails usw. abzurufen. Er kann entweder für halbstrukturierte Dokumente verwendet werden, um die variablen Teile zu verarbeiten, oder für unstrukturierte Dokumente, bei denen das Layout irrelevant ist.

Dieser Extraktor unterstützt das semantische Verständnis und verfügt neben der Beantwortung von Fragen über weitere erweiterte Funktionen wie Zusammenfassung, maschinelle Übersetzung, Dokumenttypklassifizierung und Stimmungserkennung.

Extraktor für Tabellen und Name-Wert-Paare

Der Extraktor für Tabellen und Name-Wert-Paare ist ein fester Ausgabeextraktor, der am besten für Dokumente funktioniert, die Tabellen und Name:Wert-Paare enthalten.

Auf dieser Seite

Der Universalextraktor
Extraktoren für bestimmte Dokumente
Nur-Text-Extraktor
Extraktor für Tabellen und Name-Wert-Paare

War diese Seite hilfreich?

Vorherige (previous)Datenzuordnung

WeiterVerwenden des Universalextraktors

Der Universalextraktor​

Extraktoren für bestimmte Dokumente​

Nur-Text-Extraktor​

Extraktor für Tabellen und Name-Wert-Paare​

War diese Seite hilfreich?

Der Universalextraktor

Extraktoren für bestimmte Dokumente

Nur-Text-Extraktor

Extraktor für Tabellen und Name-Wert-Paare