ixp
latest
false
  • Überblick
  • Modellerstellung
    • Überblick
    • Verwalten von Projekten
    • Hochladen von Beispieldokumenten​
      • Best Practices
      • Verwalten von Feldern
      • Importieren und Exportieren von Taxonomien
    • Überprüfung von Vorhersagen
    • Validieren von Extraktionsvorhersagen
    • Modellkonfiguration
  • Modellvalidierung
  • Modellbereitstellung
  • Häufig gestellte Fragen
UiPath logo, featuring letters U and I in white

Benutzerhandbuch für Unstrukturierte und komplexe Dokumente

Letzte Aktualisierung 3. Nov. 2025

Best Practices

In diesem Abschnitt finden Sie Best Practices zum Schreiben guter Prompt-Anweisungen auf Projektebene (d. h. Gesamtextraktion), Feldgruppenebene und einzelner Feldebene.

Hinweis: Diese Best Practices wurden für GPT-4o entwickelt, aber OCR-Probleme können weiterhin auftreten. Selbst bei gut gestalteten Prompts garantiert die Einhaltung aller Richtlinien nicht, dass die Extraktionsleistung Ihren Erwartungen entspricht

Allgemeine Empfehlungen für die Taxonomie

  • Klarheit und Einfachheit – Verwenden Sie eine klare, direkte und eindeutige Sprache. Vermeiden Sie übermäßig komplizierte Anweisungen, die das Modell verwirren könnten. Verwenden Sie eine einfache Sprache und halten Sie Sätze kurz.
  • Konsistenz – Pflegen Sie eine konsistente Terminologie über Felder, Feldgruppen und Anweisungen hinweg, um Verwirrung zu vermeiden.
  • Kontext bereitstellen – Rüsten Sie das Modell mit dem relevanten Scope aus, damit der allgemeine Umfang der Aufgabe verständlich ist. Dazu können Brancheninformationen, der Dokumententyp oder das allgemeine Datenformat gehören, da das Modell die von ihm verarbeitete Aufgabe verstehen muss. Wenn Sie im Prompt mehr Kontext bereitstellen, erhöht sich die Wahrscheinlichkeit, dass das Modell das Feld konsequent korrekt vorhersagt.
  • Iterieren – Da die Optimierung von Prompts ein iterativer Prozess ist, kann das Speichern eines Datensatzes mit Ihren Entwürfen und der entsprechenden Ergebnisse wertvolle Einblicke für zukünftige Anpassungen und Verbesserungen liefern. Schreiben, testen und bearbeiten Sie einen Prompt. Wiederholen Sie diesen Prozess, bis Sie die gewünschte Extraktion erhalten.
  • Negative Anweisungen vermeiden – Geben Sie keine Anweisung wie Folgende ein: keine Abschnitte des Dokuments auslassen. Schreiben Sie stattdessen: Alle wichtigen Abschnitte des Dokuments müssen abgedeckt werden, wie z. B. x, y, z.A
  • Sich wiederholende Sprache vermeiden – Eine sich wiederholende Sprache kann zu Redundanz, Verwirrung und unklaren Anweisungen für das Modell führen.
  • Achten Sie auf widersprüchliche Informationen – Stellen Sie sicher, dass Ihre Anweisungen auf Projekt-, Feldgruppen- und Feldebene sich nicht widersprechen, was die zu extrahierenden Informationen, das Format der Extraktion und den Ort der Informationen angeht. Dies führt zu Verwirrung im Modell und zu inkonsistenten Ergebnissen.
  • Beispielverstärkung – Verstärken Sie nach Möglichkeit die Eingabeaufforderung mit Beispielen für korrekte Antworten. Diese Instanzen können das Modell zum erwarteten Ergebnis führen.

Abbildung 1. Beispiel für eine Taxonomie

Projektebene (allgemeine Extraktion)

Best PracticesDetailsWichtigkeitKorrektes Beispiel Falsches Beispiel
Definieren Sie die Branche und den DokumententypBeschreiben Sie kurz die Branche und den Dokumententyp, aus dem die Informationen extrahiert werden. Geben Sie dann die Schlüsselmerkmale und die erwartete Struktur des Dokumententyps an, um die Extraktion zu steuern.  Dadurch wird ein wichtiger Kontext für den Datenextraktionsprozess bereitgestellt. Anweisung: Extrahiere Informationen aus einem Depotauszug, wie er in der Finanzdienstleistungsbranche zu finden ist. Depotauszüge bestehen in der Regel aus wenigen Abschnitten: Kontoübersicht, Kontozusammenfassung, Kontobestände und Transaktionen.

Anweisung: Extrahiere folgende Felder aus dem Dokument.

Erklärung: Dieses Beispiel für eine Projektanweisung nutzt dem Modell nicht. Es stellt keinen wichtigen Kontext oder Schlüsselmerkmale bereit, die dem Modell als Orientierung dienen würden. 

Geben Sie an, ob Sie mehrere Vorkommen des Dokuments in einer Datei erwarten.  Geben Sie an, wenn das Dokument mehrere Instanzen identischer Daten enthält, und stellen Sie eine Anweisung für jede Extraktionsinstanz bereit. Identifizieren Sie für die Fälle, in denen mehrere Dokumente in einer einzigen Datei enthalten sein können, eine eindeutige Kennung und schließen Sie diese als Feld in jeder Feldgruppe ein. Dadurch wird die Nachverarbeitung erleichtert und die Automatisierung läuft effizienter.  Anweisung: In einer einzigen Dokumentdatei können mehrere Brokerage-Konten vorhanden sein. Ein Maklerkonto kann über ein eindeutiges Feld mit der Kontonummer in jeder Feldgruppe identifiziert werden. Extrahieren Sie die Feldgruppen Kontoinformationen, Kontobestände und Kontoaktivitäten für jedes Konto.

Anweisung: Extrahiere alle Instanzen der Daten aus jedem Kontobeleg.

  

Erklärung: Dieses Beispiel für eine Anweisung ist schlecht, da darin nicht angegeben ist, wie bestimmt wird, ob ein Dokumententyp innerhalb der Datei mehrfach vorkommt. 

Feldgruppenebene

Best PracticesDetailsWichtigkeitKorrektes Beispiel Falsches Beispiel
Gruppieren Sie ähnliche Datenpunkte, die zusammen in Feldgruppen extrahiert werden sollen.  Organisieren Sie verwandte Felder in logische Gruppen.Dadurch wird die Extraktion optimiert und Fehler minimiert. Der Name, die Adresse und der Status des Kontoinhabers können unter einer Feldgruppe Informationen zum Kontoinhaber gruppiert werden. 

Feldgruppe: Kontodaten

  

Felder: Kontobestände, Transaktionsdatum, Kontoinhaber

  

Erklärung: Diese Gruppierung kann in einer Situation funktionieren, in der ein Benutzer nur diese drei Felder extrahieren möchte. Wenn es jedoch andere Felder wie das Holding-Tickersymbol und die Kostenbasis gibt, ist das Design oder die Struktur dieser Gruppe nicht die effektivste. 

Feldgruppenkontext Erklären Sie, wie jede Feldgruppe zur allgemeinen Bedeutung und zum Zweck des Dokuments beiträgt. Dadurch kann das Modell den Kontext der Extraktion verstehen. Anweisung: In diesem Abschnitt werden die wichtigsten Details des Maklerkontos angegeben, einschließlich der Aktienbezeichnung, des Kaufdatums, der gekauften Menge, der Kostenbasis und des gezahlten Gesamtpreises. Diese Details helfen bei der Bestimmung der aktuellen Bestände in einem Depotauszug.

Anweisung: Extrahiere folgende Felder aus dem Dokument.

  

Erklärung: Den Prompt-Anweisungen fehlen der Kontext und detaillierte Anweisungen für das Modell. Es wird weder erläutert, welcher Typ von Informationen zu extrahieren sind, noch wird deren Wichtigkeit hervorgehoben. 

  

Nutzen Sie den Speicherort und die Struktur der Informationen im Dokument innerhalb Ihrer Feldgruppen-Prompts Geben Sie wahrscheinliche Speicherorte für die Daten jedes Felds an, wie Tabelle, Header, Textkörper, um die Extraktion zu steuern.
Hinweis: Wenn Sie an einem Dokument arbeiten, in dem Informationen im selben Abschnitt erscheinen, geben Sie den Abschnitt im Prompt an. 
Dadurch kann sich das Modell auf den richtigen Teil des Dokuments für jedes Feld konzentrieren. Anweisung: Die Daten auf Feldebene für diesen Abschnitt findest du höchstwahrscheinlich im Header des Berichts auf der ersten Seite unter dem Dokumententitel.

Anweisung: Extrahiere die Informationen vom Anfang des Dokuments.

  

Erklärung: Der Prompt ist vage und stellt dem Modell nicht genügend Details dazu bereit, wo es genau im Dokument suchen muss. 

Modellieren Sie Tabellen mithilfe von Feldgruppen mit FeldernBehandeln Sie eine Feldgruppe als Tabelle, wobei jede Spalte als eindeutiges Feld innerhalb dieser Gruppe fungiert. Dieser Ansatz ist der Schlüssel zu einer effektiven Datenmodellierung, da er eine klare Differenzierung gewährleistet, Datenduplizierung minimiert und die Datenkonsistenz erhöht. Diese Methode ermöglicht eine logisch strukturierte und systematische Anordnung von Daten, was wiederum zu einer höheren Effizienz bei Datenabfragen und -analysen führt. 

Feldgruppe: Kunden

Felder: Name, Adresse, Telefonnummer

Feldgruppen: Kundenname, Kundenadresse, Telefonnummer des Kunden

Felder: Name, Adresse, Telefonnummer

Erklärung: In diesem Beispiel werden alle Kundendetails unnötigerweise in eine eigene Feldgruppe getrennt, was die Datenverwaltung komplex und anfällig für Inkonsistenzen macht.

Erstellen übergeordneter und untergeordneter Feldgruppen Beziehungen werden mit einem Größer-als-Zeichen > gekennzeichnet. Eine übergeordnete Feldgruppe kann mehrere untergeordnete Feldgruppen haben.  Die Nutzung von Feldgruppen zur Darstellung von Beziehungen zwischen Daten innerhalb der Dokumente ist eine hervorragende Möglichkeit, die hierarchische Datenorganisation aufrechtzuerhalten.

Feldgruppe: Depotauszug

Felder: Kontoinhaber, Kontotyp

Feldgruppenname: Depotauszug > Vermögensverteilung

Felder: Art des Vermögenswert, z. B. Aktien, Anleihen, Bargeld, Prozentsatz der Gesamtwerte

Feldgruppenname: Depotauszug > Investitionen

Felder: Investitionsname, Besitzmenge, Preis pro Aktie, Gesamtwert der Investition

Feldgruppe: Kontoinhaber

Felder: Name, Investitionsname, Typ des Kontos, Anzahl der Aktien, Aktien, Anleihen

Feldgruppe: Kontoinhaber > Adresse

Felder: Straße, Stadt, Bundesland, Postleitzahl

Feldgruppe: Kontoinhaber > Kontaktdaten

Felder: Telefonnummer, E-Mail

  

Erklärung: Dies ist eine schlecht strukturierte Hierarchie, da nicht verwandte Felder unter demselben übergeordneten Element kombiniert werden und die untergeordneten Feldgruppen (Adresse und Kontaktdaten) sich nicht logisch auf die Felder des übergeordneten Elements (Investitionsname, Anzahl der Aktien, Aktien, Anleihen) beziehen. Dadurch könnte das KI-Modell verwirrt sein, da es die natürliche Organisation der Daten im Dokument nicht widerspiegelt. 

Nehmen Sie ein Schlüsselfeld für Dateien, die mehrere Dokumente in sich enthalten. Wählen Sie eine eindeutige Kennung im Dokument, anhand der Sie die Daten unterscheiden können. Schließen Sie dieses Feld in jeder Feldgruppe auf. Sie müssen die Anweisung für dieses Feld nicht von einer Feldgruppe zu einer anderen ändern. Durch die Einbeziehen dieses Schlüsselfelds lassen sich Informationen innerhalb des Dokuments trennen und Verwirrung bei der Verarbeitung der extrahierten Daten beseitigen.  Feld: Kontonummer, Sozialversicherungsnummer, Policenummer

Feld: Datum, Name

Erklärung: Die aufgeführten Feldnamen würden keine guten Schlüsselfelder ergeben, da sie nicht eindeutig sind. Sowohl Daten als auch Namen können wiederholt werden. 

Feldebene

Best PracticesDetailsWichtigkeitKorrektes Beispiel Falsches Beispiel
Wählen Sie Feldnamen sorgfältig aus. Wählen Sie klare, erkennbare Namen für Felder, die den Erwartungen des Benutzers entsprechen. Wenn es einen universellen Namen gibt, der in allen Dokumentenvarianten verwendet wird, stellen Sie sicher, dass er auch einbezogen wird.  Präzise Feldnamen gewährleisten eine genaue Extraktion und reduzieren Mehrdeutigkeiten. Feld: Datum des Vorfalls

Feld: Datum

  

Erklärung: Datum ist ein generischer Begriff und bietet keinen Kontext dazu, worauf sich das Datum bezieht. Dies kann zu einer ungenauen Datenextraktion führen, da das KI-Modell jedes im Dokument angezeigte Datum übernehmen könnte. 

Seien Sie explizit und detailliert bei den Anweisungen Starten Sie das Modell, indem Sie explizit angeben, was das Modell extrahieren soll. Geben Sie das genaue Format und die Struktur der zu extrahierenden Daten an.  Klare, detaillierte Prompts leiten das Modell, damit sie genau das extrahieren, was Sie benötigen, in dem von Ihnen erwarteten Format. Anweisung: Extrahiere die Liste aller Berater aus dem Dokument, formatiere sie in einer durch Komma getrennten Liste und ordne sie in alphabetischer Reihenfolge an.

Anweisung: Zieh alle Berater heraus.

  

Erklärung: Der Prompt ist vage und stellt dem Modell keine klaren Anweisungen zum gewünschten Ergebnis und zur Formatierung bereit. Dadurch kann es zu Inkonsistenzen in den extrahierten Informationen kommen, was die Verarbeitung der Ergebnisse erschwert. 

  

Beispiele innerhalb der Anweisungen bereitstellenGeben Sie Beispieleingaben und entsprechende erwartete Ausgaben an, um die erwarteten Ergebnisse zu erläutern. Dadurch kann das Modell genau verstehen, wonach Sie suchen.  Anweisung: Extrahiere die Transaktionsdaten aus dem Dokument. Die Datumsangaben sollten im Format MM/DD/YYYY sein. Wenn zum Beispiel im Dokument angegeben ist, dass die Transaktion am 1. Januar 2021 abgeschlossen wurde, sollte das extrahierte Datum der 01.01.2021 sein. Wenn das Transaktionsdatum im Format MM/YYYY angegeben wird, extrahieren Sie es als den ersten Tag des Monats. Wenn das Datum zum Beispiel als 05/2021 dargestellt wird, extrahieren Sie es als 05/01/2021.

Anweisung: Ruf die Transaktionsdaten aus dem Dokument ab.

  

Erklärung: Der oben angegebene Prompt ist nicht so effektiv, da er keine expliziten Anweisungen zum Umgang mit verschiedenen im Dokument gefundenen Datumsformaten enthält. Dieser Mangel an Klarheit kann zu einer inkonsistenten Extraktion von Daten führen, was die Aufgabe der Interpretation und Analyse von Daten erschwert. 

Halten Sie sich an eine Hauptidee pro  Feldanweisung Überladen Sie den Prompt nicht, indem Sie versuchen, große, sequenzielle Datenmengen in einem einzelnen Feld zu extrahieren, um die Genauigkeit zu verbessern. Jede Feldebene sollte sich auf die Extraktion eines Datums konzentrieren. Dadurch wird auch die Nachbearbeitung vereinfacht. 

Feld 1: Extrahiere die Kontonummer.

Feld 2: Extrahiere das Transaktionsdatum.

Feld 3: Extrahiere den Kontostand.

Anweisung: Extrahiere die Kontonummer, das Transaktionsdatum und den Kontostand zusammen.

Erklärung: Der Prompt ist mit mehreren Anweisungen überlastet, die das Modell anweisen, verschiedene Arten von Daten gleichzeitig zu extrahieren. Dieser Ansatz kann zu unordentlichen Extraktionsergebnissen führen und die Nachverarbeitung erschweren. 

Feldtypenebene

Best PracticesDetailsWichtigkeitKorrektes Beispiel Falsches Beispiel
Wählen Sie Datentypen gezielt ausÜberlegen Sie, wie die extrahierten Daten formatiert werden sollen, und stellen Sie sicher, dass sie an den nachgelagerten Anwendungsfällen ausgerichtet sind, um die Extraktion für die Automatisierung zu optimieren. 
  • Datum – Stellen Sie damit Datumsangaben im Text dar. Datumsangaben werden als UTC mit einem Format YYYY-MM-DD HH:MM:SS normalisiert. 
  • Exakter Text – Stellen Sie damit Text dar, der im Text wörtlich angezeigt wird. 
  • Abgeleiteter Text – Verwenden Sie diese Option für Text, der möglicherweise nicht wörtlich im Text erscheint, aber über andere Kennungen im Dokument verfügt. 
  • Geldbetrag – Damit können Geldwerte im Text darstellen. Geldbträge werden in den folgenden Beispielformaten normalisiert: $00.00oder 00.00 USD.
  • Zahl – Stellen Sie damit Beträge oder Mengen im Text dar. Zahlen werden aus dem Dokument abgeleitet, Benutzer können Werte eingeben und optional Beweisen Anmerkungen hinzufügen. Der Wert wird als Dezimalwert formatiert, 00.00.
Die Auswahl des entsprechenden Datentyps ermöglicht eine genaue Formatierung und eine einfachere nachgelagerte Verarbeitung.

Feldname: Transaktionsvolumen

Datentyp: Zahl

Feldname: Telefonnummer

Datentyp: Zahl

Erklärung: Die Verwendung des Datentyps „Nummer“ für eine Telefonnummer ist nicht sinnvoll Obwohl eine Telefonnummer aus Ziffern zusammengesetzt ist, ist sie kein numerischer Wert, was bedeutet, dass Sie keine Arithmetik damit ausführen. Sie wird besser als eine Zeichenfolge beschrieben. Daher sollte hier der Datentyp „Exakter Text“ genommen werden. 

Fügen Sie nur feldtypspezifische Anweisungen in den Feldtyp ein. 

Bei der Bereitstellung von Anweisungen für die Datenextraktion ist es wichtig, diese spezifisch für jeden Feldtyp zu halten. Wenn es allgemeine Anweisungen gibt, die für alle Felder eines bestimmten Typs gelten, kann ein Benutzer sie auf der Feldtypenebene ausgeben, um Wiederholungen zu vermeiden. Wenn zum Beispiel alle Geldbetragsfelder in USD sein müssen, geben Sie dies auf der Feldtypenebene an. 

  

Für einige Datasets sind jedoch möglicherweise eindeutige Felder erforderlich, die nicht von vorhandenen Feldtypen (Datum, Text, Geldbetrag usw.) abgedeckt werden. In diesen Fällen können Sie einen neuen, benutzerdefinierten Feldtyp erstellen. Geben Sie beim Schreiben von Anweisungen für diese neuen Felder an, wie die Daten formatiert werden sollen, um sicherzustellen, dass die extrahierten Daten ihren beabsichtigten Zweck erfüllen. Diese Praktiken verbessern die Genauigkeit und Konsistenz Ihrer extrahierten Daten. 

 

Feldtyp: Datum

Anweisung: Extrahiere alle mit Transaktionen verknüpften Daten aus dem Dokument. Datumsangaben sollten im Format normalisiert werden YYYY-MM-DD.

Feldtyp: Geldbetrag

Anweisung: Extrahiere den Artikelpreis aus der Spalte Preis in der Tabelle mit den Rechnungsposten.

Erklärung: Die Anweisung ist speziell für die Extraktion eines Geldbetrags aus einem bestimmten Feld (der Preisspalte) relevant, nicht für ein anderes auf Geldbetrag basierendes Feld. 

Testen und Iterieren

  1. Erstellen Sie ein Feld für alle Informationen, die extrahiert werden sollen, aber keine Anweisungen enthalten.
  2. Wählen Sie eine Stichprobe von 2 bis 3 Dokumenten und führen Sie Vorhersagen für jedes Dokument aus. Diese Dokumente sollten die in den Dokumenten vorhandene Varianz widerspiegeln, für die Sie das Modell erstellen.
  3. Vergleichen Sie die Extraktionen des Modells mit den erwarteten Ergebnissen. Entwerfen Sie für die Felder, die nicht gut abgeschnitten haben, einen Prompt mithilfe der zuvor aufgeführten Best Practices, da diese als Ihren Basisprompt dient.
  4. Führen Sie mithilfe derselben 2 bis 3 zuvor getesteten Beispieldokumente die Vorhersagen erneut aus, um zu überprüfen, ob sich die Extraktionsleistung verbessert hat.
  5. Wenn die Vorhersagen falsch oder unvollständig sind, verfeinern Sie die Prompts, um zur Verbesserung Extraktionsleistung des Modells die erforderlichen Details hinzuzufügen. Wenn die Vorhersagen Ihren Erwartungen entsprechen, vergrößern Sie die Stichprobe Ihrer Dokumente. Es ist wichtig, die Zahlen schrittweise zu erhöhen. Gehen Sie von 2 zu 3 zu 10, dann zu 20, 30 usw. Fahren Sie fort, bis Sie sicher sind, dass die Vorhersagen des Modells korrekt sind.
  6. Wenn sich die Anweisungen geändert haben, bewerten Sie zuvor angezeigte Dokumente neu, um sicherzustellen, dass die Vorhersagen korrekt bleiben.
  7. Sobald Sie mit der Leistung des Modells zufrieden sind, gehen Sie zum ersten Dokument zurück und beginnen Sie damit, Anmerkungen hinzuzufügen. Fügen Sie mindestens 10 Dokumenten Anmerkungen hinzu, um über die Registerkarte Messen wertvolle Leistungsmetriken zu dem Feld zu erhalten. Mit dieser Funktion können Sie die Extraktionsleistung sowohl auf der Gesamtprojekt- als auch auf der Feldebene evaluieren.
  8. Überwachen Sie Leistungsmetriken, um Ihre Prompts im großen Maßstab zu verfeinern. Der Prozess der Prompt-Iteration sollte in erster Linie auf Feldebene erfolgen, da Anpassungen gezieltere und direkte Auswirkungen auf die spezifischen Felder haben, die nicht gut funktionieren. Wenn die Punktzahl für eine Feldgruppe nicht gut funktioniert, kann die Anpassung Ihrer Projekt- und Feldgruppenanweisungen wirksamer sein, da sie sich auf mehrere Felder auswirken.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo
Vertrauen und Sicherheit
© 2005–2025 UiPath. Alle Rechte vorbehalten