clipboard-ai
latest
false
  • Erste Schritte
    • Einleitung
    • Die Clipboard AI-Symbolleiste
    • Informationen zu diesem Leitfaden
  • Einstellung und Konfiguration (Setup and Configuration)
  • Datenzuordnung
    • Datenzuordnung
    • Transformationen
  • Datenschutz
Wichtig :
Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.
UiPath logo, featuring letters U and I in white

Clipboard AI-Benutzerhandbuch

Letzte Aktualisierung 10. Dez. 2024

Datenextraktoren

Datenextraktoren können verwendet werden, um die relevanten Informationen aus verschiedenen Dokumenten und anderen Quellen abzurufen.

Bei den Dokumenttypen gibt es drei Hauptkategorien:

  • Strukturierte Dokumente – Haben ein festes Format und sind einfach zu verarbeiten, sodass Sie die erforderlichen Daten in genauen Feldern ausfüllen können. Diese Dokumente sind so konzipiert, dass sie einen bestimmten Datentyp enthalten. Beispiele für strukturierte Dokumente: Steuerformulare, Umfragen, Fragebögen usw.
  • Halbstrukturierte Dokumente – Haben sowohl ein festes Format als auch variable Teile. Halbstrukturierte Dokumente haben kein festes Format in dem Sinne, dass sie nicht an angegebene Datenfelder wie strukturierte Dokumente gebunden sind. Sie enthalten jedoch einen vorhersehbaren Satz von Informationen, z. B. enthält eine Rechnung immer einen eindeutigen Bezeichner, ein Datum oder einen Rechnungsnummer, aber die Platzierung kann je nach Anbieter variieren. Diese Dokumente enthalten hauptsächlich Bezeichnung:Wert-Paare und können auch Absätze enthalten. Beispiel für halbstrukturierte Dokumente: Rechnungen, Belege, Bestellungen, Betriebskostenabrechnungen usw.
  • Unstrukturierte Dokumente – Die Informationen sind nicht nach einem festen Format geordnet. Diese Dokumente enthalten hauptsächlich Klartext, die meisten Daten liegen in unstrukturierter Form innerhalb des Texts vor. Beispiele für unstrukturierte Dokumente: Verträge, E-Mails, Gesundheitsdatensätze usw.

Datenextraktoren können sich darin unterscheiden, wie sie Daten aus Dokumenten extrahieren. Diesbezüglich gibt es zwei Arten von Extraktoren:

  • Feste Ausgabeextraktoren – Für die Extraktion eines vordefinierten Satzes von Informationen aus einem Dokument trainiert; beispielsweise versucht der Rechnungsextraktor immer, den Firmennamen, die Adresse, die Gesamtsumme usw. zu extrahieren.
  • Frage-Antwort-Extraktoren – Sind darauf trainiert, Fragen basierend auf einem bestimmten Kontext zu beantworten. Diese Extraktoren nutzen das Verständnis natürlicher Sprache, um den Text zu analysieren und herauszufinden, welcher Wert genau aus dem Text extrahiert werden muss, um eine geeignete Antwort zu geben oder sogar eine Option aus einer Liste vorgegebener Optionen auszuwählen.

Clipboard AI verwendet den folgenden Satz von Datenextraktoren:

  • Universalextraktor

  • Extraktoren für bestimmte Dokumente
  • Nur-Text-Extraktor
  • Extraktor für Tabellen und Name-Wert-Paare

Der Universalextraktor

Der Universalextraktor ist die Standardoption zum Extrahieren von Daten aus Ihren Dokumenten. Es scannt Ihre Daten (Nur-Text oder tabellarisch) und entscheidet die beste Lösung, um sie zu extrahieren. Er verwendet eine Kombination der vorhandenen Extraktoren und ermöglicht auch Abfragen, um die beste Übereinstimmung in Ihren Daten zu finden.

Extraktoren für bestimmte Dokumente

Die Extraktoren für bestimmte Dokumente sind ein Satz mit fester Ausgabe von Extraktoren, die auf spezifische Dokumenttypen trainiert wurden. Jeder Dokumenttyp wird mit dem entsprechenden Document Understanding Machine Learning-Modell wie folgt extrahiert:

  • Rechnung
  • Reisepass
  • Beleg
  • ID-Karte
  • W-2-Formular
  • Betriebskostenabrechnung
  • Bestellung
  • Web-/Desktopformulare

Sie können das bevorzugte Document Understanding-Modell basierend auf Ihrem Dokumenttyp auswählen.

Nur-Text-Extraktor

Der Nur-Text-Extraktor ist ein Frage-Antwort-Extraktor, der GPT3 verwendet, um Daten aus Klartextdokumenten, Webseiten, E-Mails usw. abzurufen. Er kann entweder für halbstrukturierte Dokumente verwendet werden, um die variablen Teile zu verarbeiten, oder für unstrukturierte Dokumente, bei denen das Layout irrelevant ist.

Dieser Extraktor unterstützt das semantische Verständnis und verfügt neben der Beantwortung von Fragen über weitere erweiterte Funktionen wie Zusammenfassung, maschinelle Übersetzung, Dokumenttypklassifizierung und Stimmungserkennung.

Extraktor für Tabellen und Name-Wert-Paare

Der Extraktor für Tabellen und Name-Wert-Paare ist ein Extraktor mit fester Ausgabe, der am besten für Dokumente funktioniert, die Tabellen und Name:Wert-Paare enthalten.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten