- Überblick
- Modellerstellung
- Modellvalidierung
- Modellbereitstellung
- Häufig gestellte Fragen

Benutzerhandbuch für Unstrukturierte und komplexe Dokumente
In diesem Abschnitt finden Sie Best Practices zum Schreiben guter Prompt-Anweisungen auf Projektebene (d. h. Gesamtextraktion), Feldgruppenebene und einzelner Feldebene.
- Klarheit und Einfachheit – Verwenden Sie eine klare, direkte und eindeutige Sprache. Vermeiden Sie übermäßig komplizierte Anweisungen, die das Modell verwirren könnten. Verwenden Sie eine einfache Sprache und halten Sie Sätze kurz.
- Konsistenz – Pflegen Sie eine konsistente Terminologie über Felder, Feldgruppen und Anweisungen hinweg, um Verwirrung zu vermeiden.
- Kontext bereitstellen – Rüsten Sie das Modell mit dem relevanten Scope aus, damit der allgemeine Umfang der Aufgabe verständlich ist. Dazu können Brancheninformationen, der Dokumententyp oder das allgemeine Datenformat gehören, da das Modell die von ihm verarbeitete Aufgabe verstehen muss. Wenn Sie im Prompt mehr Kontext bereitstellen, erhöht sich die Wahrscheinlichkeit, dass das Modell das Feld konsequent korrekt vorhersagt.
- Iterieren – Da die Optimierung von Prompts ein iterativer Prozess ist, kann das Speichern eines Datensatzes mit Ihren Entwürfen und der entsprechenden Ergebnisse wertvolle Einblicke für zukünftige Anpassungen und Verbesserungen liefern. Schreiben, testen und bearbeiten Sie einen Prompt. Wiederholen Sie diesen Prozess, bis Sie die gewünschte Extraktion erhalten.
- Negative Anweisungen vermeiden – Geben Sie keine Anweisung wie Folgende ein: keine Abschnitte des Dokuments auslassen. Schreiben Sie stattdessen: Alle wichtigen Abschnitte des Dokuments müssen abgedeckt werden, wie z. B. x, y, z.A
- Sich wiederholende Sprache vermeiden – Eine sich wiederholende Sprache kann zu Redundanz, Verwirrung und unklaren Anweisungen für das Modell führen.
- Achten Sie auf widersprüchliche Informationen – Stellen Sie sicher, dass Ihre Anweisungen auf Projekt-, Feldgruppen- und Feldebene sich nicht widersprechen, was die zu extrahierenden Informationen, das Format der Extraktion und den Ort der Informationen angeht. Dies führt zu Verwirrung im Modell und zu inkonsistenten Ergebnissen.
- Beispielverstärkung – Verstärken Sie nach Möglichkeit die Eingabeaufforderung mit Beispielen für korrekte Antworten. Diese Instanzen können das Modell zum erwarteten Ergebnis führen.
| Best Practices | Details | Wichtigkeit | Korrektes Beispiel | Falsches Beispiel |
|---|---|---|---|---|
| Definieren Sie die Branche und den Dokumententyp | Beschreiben Sie kurz die Branche und den Dokumententyp, aus dem die Informationen extrahiert werden. Geben Sie dann die Schlüsselmerkmale und die erwartete Struktur des Dokumententyps an, um die Extraktion zu steuern. | Dadurch wird ein wichtiger Kontext für den Datenextraktionsprozess bereitgestellt. | Anweisung: Extrahiere Informationen aus einem Depotauszug, wie er in der Finanzdienstleistungsbranche zu finden ist. Depotauszüge bestehen in der Regel aus wenigen Abschnitten: Kontoübersicht, Kontozusammenfassung, Kontobestände und Transaktionen.
|
Anweisung: Extrahiere folgende Felder aus dem Dokument. Erklärung: Dieses Beispiel für eine Projektanweisung nutzt dem Modell nicht. Es stellt keinen wichtigen Kontext oder Schlüsselmerkmale bereit, die dem Modell als Orientierung dienen würden. |
| Geben Sie an, ob Sie mehrere Vorkommen des Dokuments in einer Datei erwarten. | Geben Sie an, wenn das Dokument mehrere Instanzen identischer Daten enthält, und stellen Sie eine Anweisung für jede Extraktionsinstanz bereit. Identifizieren Sie für die Fälle, in denen mehrere Dokumente in einer einzigen Datei enthalten sein können, eine eindeutige Kennung und schließen Sie diese als Feld in jeder Feldgruppe ein. | Dadurch wird die Nachverarbeitung erleichtert und die Automatisierung läuft effizienter. | Anweisung: In einer einzigen Dokumentdatei können mehrere Brokerage-Konten vorhanden sein. Ein Maklerkonto kann über ein eindeutiges Feld mit der Kontonummer in jeder Feldgruppe identifiziert werden. Extrahieren Sie die Feldgruppen Kontoinformationen, Kontobestände und Kontoaktivitäten für jedes Konto.
|
Anweisung: Extrahiere alle Instanzen der Daten aus jedem Kontobeleg.
Erklärung: Dieses Beispiel für eine Anweisung ist schlecht, da darin nicht angegeben ist, wie bestimmt wird, ob ein Dokumententyp innerhalb der Datei mehrfach vorkommt. |
| Best Practices | Details | Wichtigkeit | Korrektes Beispiel | Falsches Beispiel |
|---|---|---|---|---|
| Gruppieren Sie ähnliche Datenpunkte, die zusammen in Feldgruppen extrahiert werden sollen. | Organisieren Sie verwandte Felder in logische Gruppen. | Dadurch wird die Extraktion optimiert und Fehler minimiert. | Der Name, die Adresse und der Status des Kontoinhabers können unter einer Feldgruppe Informationen zum Kontoinhaber gruppiert werden. |
Feldgruppe: Kontodaten
Felder: Kontobestände, Transaktionsdatum, Kontoinhaber
Erklärung: Diese Gruppierung kann in einer Situation funktionieren, in der ein Benutzer nur diese drei Felder extrahieren möchte. Wenn es jedoch andere Felder wie das Holding-Tickersymbol und die Kostenbasis gibt, ist das Design oder die Struktur dieser Gruppe nicht die effektivste. |
| Feldgruppenkontext | Erklären Sie, wie jede Feldgruppe zur allgemeinen Bedeutung und zum Zweck des Dokuments beiträgt. | Dadurch kann das Modell den Kontext der Extraktion verstehen. | Anweisung: In diesem Abschnitt werden die wichtigsten Details des Maklerkontos angegeben, einschließlich der Aktienbezeichnung, des Kaufdatums, der gekauften Menge, der Kostenbasis und des gezahlten Gesamtpreises. Diese Details helfen bei der Bestimmung der aktuellen Bestände in einem Depotauszug. |
Anweisung: Extrahiere folgende Felder aus dem Dokument.
Erklärung: Den Prompt-Anweisungen fehlen der Kontext und detaillierte Anweisungen für das Modell. Es wird weder erläutert, welcher Typ von Informationen zu extrahieren sind, noch wird deren Wichtigkeit hervorgehoben.
|
| Nutzen Sie den Speicherort und die Struktur der Informationen im Dokument innerhalb Ihrer Feldgruppen-Prompts | Geben Sie wahrscheinliche Speicherorte für die Daten jedes Felds an, wie Tabelle, Header, Textkörper, um die Extraktion zu steuern.
Hinweis: Wenn Sie an einem Dokument arbeiten, in dem Informationen im selben Abschnitt erscheinen, geben Sie den Abschnitt im Prompt an.
| Dadurch kann sich das Modell auf den richtigen Teil des Dokuments für jedes Feld konzentrieren. | Anweisung: Die Daten auf Feldebene für diesen Abschnitt findest du höchstwahrscheinlich im Header des Berichts auf der ersten Seite unter dem Dokumententitel. |
Anweisung: Extrahiere die Informationen vom Anfang des Dokuments.
Erklärung: Der Prompt ist vage und stellt dem Modell nicht genügend Details dazu bereit, wo es genau im Dokument suchen muss. |
| Modellieren Sie Tabellen mithilfe von Feldgruppen mit Feldern | Behandeln Sie eine Feldgruppe als Tabelle, wobei jede Spalte als eindeutiges Feld innerhalb dieser Gruppe fungiert. Dieser Ansatz ist der Schlüssel zu einer effektiven Datenmodellierung, da er eine klare Differenzierung gewährleistet, Datenduplizierung minimiert und die Datenkonsistenz erhöht. | Diese Methode ermöglicht eine logisch strukturierte und systematische Anordnung von Daten, was wiederum zu einer höheren Effizienz bei Datenabfragen und -analysen führt. |
Feldgruppe: Kunden Felder: Name, Adresse, Telefonnummer |
Feldgruppen: Kundenname, Kundenadresse, Telefonnummer des Kunden Felder: Name, Adresse, Telefonnummer Erklärung: In diesem Beispiel werden alle Kundendetails unnötigerweise in eine eigene Feldgruppe getrennt, was die Datenverwaltung komplex und anfällig für Inkonsistenzen macht. |
| Erstellen übergeordneter und untergeordneter Feldgruppen | Beziehungen werden mit einem Größer-als-Zeichen > gekennzeichnet. Eine übergeordnete Feldgruppe kann mehrere untergeordnete Feldgruppen haben.
| Die Nutzung von Feldgruppen zur Darstellung von Beziehungen zwischen Daten innerhalb der Dokumente ist eine hervorragende Möglichkeit, die hierarchische Datenorganisation aufrechtzuerhalten. |
Feldgruppe: Depotauszug Felder: Kontoinhaber, Kontotyp Feldgruppenname: Depotauszug > Vermögensverteilung Felder: Art des Vermögenswert, z. B. Aktien, Anleihen, Bargeld, Prozentsatz der Gesamtwerte Feldgruppenname: Depotauszug > Investitionen Felder: Investitionsname, Besitzmenge, Preis pro Aktie, Gesamtwert der Investition |
Feldgruppe: Kontoinhaber Felder: Name, Investitionsname, Typ des Kontos, Anzahl der Aktien, Aktien, Anleihen Feldgruppe: Kontoinhaber > Adresse Felder: Straße, Stadt, Bundesland, Postleitzahl Feldgruppe: Kontoinhaber > Kontaktdaten Felder: Telefonnummer, E-Mail
Erklärung: Dies ist eine schlecht strukturierte Hierarchie, da nicht verwandte Felder unter demselben übergeordneten Element kombiniert werden und die untergeordneten Feldgruppen (Adresse und Kontaktdaten) sich nicht logisch auf die Felder des übergeordneten Elements (Investitionsname, Anzahl der Aktien, Aktien, Anleihen) beziehen. Dadurch könnte das KI-Modell verwirrt sein, da es die natürliche Organisation der Daten im Dokument nicht widerspiegelt. |
| Nehmen Sie ein Schlüsselfeld für Dateien, die mehrere Dokumente in sich enthalten. | Wählen Sie eine eindeutige Kennung im Dokument, anhand der Sie die Daten unterscheiden können. Schließen Sie dieses Feld in jeder Feldgruppe auf. Sie müssen die Anweisung für dieses Feld nicht von einer Feldgruppe zu einer anderen ändern. | Durch die Einbeziehen dieses Schlüsselfelds lassen sich Informationen innerhalb des Dokuments trennen und Verwirrung bei der Verarbeitung der extrahierten Daten beseitigen. | Feld: Kontonummer, Sozialversicherungsnummer, Policenummer |
Feld: Datum, Name Erklärung: Die aufgeführten Feldnamen würden keine guten Schlüsselfelder ergeben, da sie nicht eindeutig sind. Sowohl Daten als auch Namen können wiederholt werden. |
| Best Practices | Details | Wichtigkeit | Korrektes Beispiel | Falsches Beispiel |
|---|---|---|---|---|
| Wählen Sie Feldnamen sorgfältig aus. | Wählen Sie klare, erkennbare Namen für Felder, die den Erwartungen des Benutzers entsprechen. Wenn es einen universellen Namen gibt, der in allen Dokumentenvarianten verwendet wird, stellen Sie sicher, dass er auch einbezogen wird. | Präzise Feldnamen gewährleisten eine genaue Extraktion und reduzieren Mehrdeutigkeiten. | Feld: Datum des Vorfalls |
Feld: Datum
Erklärung: Datum ist ein generischer Begriff und bietet keinen Kontext dazu, worauf sich das Datum bezieht. Dies kann zu einer ungenauen Datenextraktion führen, da das KI-Modell jedes im Dokument angezeigte Datum übernehmen könnte. |
| Seien Sie explizit und detailliert bei den Anweisungen | Starten Sie das Modell, indem Sie explizit angeben, was das Modell extrahieren soll. Geben Sie das genaue Format und die Struktur der zu extrahierenden Daten an. | Klare, detaillierte Prompts leiten das Modell, damit sie genau das extrahieren, was Sie benötigen, in dem von Ihnen erwarteten Format. | Anweisung: Extrahiere die Liste aller Berater aus dem Dokument, formatiere sie in einer durch Komma getrennten Liste und ordne sie in alphabetischer Reihenfolge an. |
Anweisung: Zieh alle Berater heraus.
Erklärung: Der Prompt ist vage und stellt dem Modell keine klaren Anweisungen zum gewünschten Ergebnis und zur Formatierung bereit. Dadurch kann es zu Inkonsistenzen in den extrahierten Informationen kommen, was die Verarbeitung der Ergebnisse erschwert.
|
| Beispiele innerhalb der Anweisungen bereitstellen | Geben Sie Beispieleingaben und entsprechende erwartete Ausgaben an, um die erwarteten Ergebnisse zu erläutern. | Dadurch kann das Modell genau verstehen, wonach Sie suchen. | Anweisung: Extrahiere die Transaktionsdaten aus dem Dokument. Die Datumsangaben sollten im Format MM/DD/YYYY sein. Wenn zum Beispiel im Dokument angegeben ist, dass die Transaktion am 1. Januar 2021 abgeschlossen wurde, sollte das extrahierte Datum der 01.01.2021 sein. Wenn das Transaktionsdatum im Format MM/YYYY angegeben wird, extrahieren Sie es als den ersten Tag des Monats. Wenn das Datum zum Beispiel als 05/2021 dargestellt wird, extrahieren Sie es als 05/01/2021.
|
Anweisung: Ruf die Transaktionsdaten aus dem Dokument ab.
Erklärung: Der oben angegebene Prompt ist nicht so effektiv, da er keine expliziten Anweisungen zum Umgang mit verschiedenen im Dokument gefundenen Datumsformaten enthält. Dieser Mangel an Klarheit kann zu einer inkonsistenten Extraktion von Daten führen, was die Aufgabe der Interpretation und Analyse von Daten erschwert. |
| Halten Sie sich an eine Hauptidee pro Feldanweisung | Überladen Sie den Prompt nicht, indem Sie versuchen, große, sequenzielle Datenmengen in einem einzelnen Feld zu extrahieren, um die Genauigkeit zu verbessern. Jede Feldebene sollte sich auf die Extraktion eines Datums konzentrieren. | Dadurch wird auch die Nachbearbeitung vereinfacht. |
Feld 1: Extrahiere die Kontonummer. Feld 2: Extrahiere das Transaktionsdatum. Feld 3: Extrahiere den Kontostand. |
Anweisung: Extrahiere die Kontonummer, das Transaktionsdatum und den Kontostand zusammen. Erklärung: Der Prompt ist mit mehreren Anweisungen überlastet, die das Modell anweisen, verschiedene Arten von Daten gleichzeitig zu extrahieren. Dieser Ansatz kann zu unordentlichen Extraktionsergebnissen führen und die Nachverarbeitung erschweren. |
| Best Practices | Details | Wichtigkeit | Korrektes Beispiel | Falsches Beispiel |
|---|---|---|---|---|
| Wählen Sie Datentypen gezielt aus | Überlegen Sie, wie die extrahierten Daten formatiert werden sollen, und stellen Sie sicher, dass sie an den nachgelagerten Anwendungsfällen ausgerichtet sind, um die Extraktion für die Automatisierung zu optimieren.
| Die Auswahl des entsprechenden Datentyps ermöglicht eine genaue Formatierung und eine einfachere nachgelagerte Verarbeitung. |
Feldname: Transaktionsvolumen Datentyp: Zahl |
Feldname: Telefonnummer Datentyp: Zahl Erklärung: Die Verwendung des Datentyps „Nummer“ für eine Telefonnummer ist nicht sinnvoll Obwohl eine Telefonnummer aus Ziffern zusammengesetzt ist, ist sie kein numerischer Wert, was bedeutet, dass Sie keine Arithmetik damit ausführen. Sie wird besser als eine Zeichenfolge beschrieben. Daher sollte hier der Datentyp „Exakter Text“ genommen werden. |
| Fügen Sie nur feldtypspezifische Anweisungen in den Feldtyp ein. |
Bei der Bereitstellung von Anweisungen für die Datenextraktion ist es wichtig, diese spezifisch für jeden Feldtyp zu halten. Wenn es allgemeine Anweisungen gibt, die für alle Felder eines bestimmten Typs gelten, kann ein Benutzer sie auf der Feldtypenebene ausgeben, um Wiederholungen zu vermeiden. Wenn zum Beispiel alle Geldbetragsfelder in USD sein müssen, geben Sie dies auf der Feldtypenebene an.
Für einige Datasets sind jedoch möglicherweise eindeutige Felder erforderlich, die nicht von vorhandenen Feldtypen (Datum, Text, Geldbetrag usw.) abgedeckt werden. In diesen Fällen können Sie einen neuen, benutzerdefinierten Feldtyp erstellen. Geben Sie beim Schreiben von Anweisungen für diese neuen Felder an, wie die Daten formatiert werden sollen, um sicherzustellen, dass die extrahierten Daten ihren beabsichtigten Zweck erfüllen. Diese Praktiken verbessern die Genauigkeit und Konsistenz Ihrer extrahierten Daten. |
Feldtyp: Datum Anweisung: Extrahiere alle mit Transaktionen verknüpften Daten aus dem Dokument. Datumsangaben sollten im Format normalisiert werden
YYYY-MM-DD. |
Feldtyp: Geldbetrag Anweisung: Extrahiere den Artikelpreis aus der Spalte Preis in der Tabelle mit den Rechnungsposten. Erklärung: Die Anweisung ist speziell für die Extraktion eines Geldbetrags aus einem bestimmten Feld (der Preisspalte) relevant, nicht für ein anderes auf Geldbetrag basierendes Feld. |
- Erstellen Sie ein Feld für alle Informationen, die extrahiert werden sollen, aber keine Anweisungen enthalten.
- Wählen Sie eine Stichprobe von 2 bis 3 Dokumenten und führen Sie Vorhersagen für jedes Dokument aus. Diese Dokumente sollten die in den Dokumenten vorhandene Varianz widerspiegeln, für die Sie das Modell erstellen.
- Vergleichen Sie die Extraktionen des Modells mit den erwarteten Ergebnissen. Entwerfen Sie für die Felder, die nicht gut abgeschnitten haben, einen Prompt mithilfe der zuvor aufgeführten Best Practices, da diese als Ihren Basisprompt dient.
- Führen Sie mithilfe derselben 2 bis 3 zuvor getesteten Beispieldokumente die Vorhersagen erneut aus, um zu überprüfen, ob sich die Extraktionsleistung verbessert hat.
- Wenn die Vorhersagen falsch oder unvollständig sind, verfeinern Sie die Prompts, um zur Verbesserung Extraktionsleistung des Modells die erforderlichen Details hinzuzufügen. Wenn die Vorhersagen Ihren Erwartungen entsprechen, vergrößern Sie die Stichprobe Ihrer Dokumente. Es ist wichtig, die Zahlen schrittweise zu erhöhen. Gehen Sie von 2 zu 3 zu 10, dann zu 20, 30 usw. Fahren Sie fort, bis Sie sicher sind, dass die Vorhersagen des Modells korrekt sind.
- Wenn sich die Anweisungen geändert haben, bewerten Sie zuvor angezeigte Dokumente neu, um sicherzustellen, dass die Vorhersagen korrekt bleiben.
- Sobald Sie mit der Leistung des Modells zufrieden sind, gehen Sie zum ersten Dokument zurück und beginnen Sie damit, Anmerkungen hinzuzufügen. Fügen Sie mindestens 10 Dokumenten Anmerkungen hinzu, um über die Registerkarte Messen wertvolle Leistungsmetriken zu dem Feld zu erhalten. Mit dieser Funktion können Sie die Extraktionsleistung sowohl auf der Gesamtprojekt- als auch auf der Feldebene evaluieren.
- Überwachen Sie Leistungsmetriken, um Ihre Prompts im großen Maßstab zu verfeinern. Der Prozess der Prompt-Iteration sollte in erster Linie auf Feldebene erfolgen, da Anpassungen gezieltere und direkte Auswirkungen auf die spezifischen Felder haben, die nicht gut funktionieren. Wenn die Punktzahl für eine Feldgruppe nicht gut funktioniert, kann die Anpassung Ihrer Projekt- und Feldgruppenanweisungen wirksamer sein, da sie sich auf mehrere Felder auswirken.