IXP – Best Practices

ixp

latest

false

Benutzerhandbuch für Unstrukturierte und komplexe Dokumente

Überblick
Modellerstellung
Modellvalidierung
Modellbereitstellung
Verbrauchen von Modellen
- Modelle über einen Workflow verbrauchen
- Modelle über Document Understanding-API verbrauchen
API
- API-Prüfungsereignisse
Häufig gestellte Fragen
- Häufig gestellte Fragen

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Best Practices

Verfassen Sie effektive Prompt-Anweisungen auf Projekt-, Feldgruppen- und Feldebene, um die Extraktionsgenauigkeit für externe LLMs in IXP zu verbessern.

In diesem Abschnitt finden Sie Best Practices zum Schreiben guter Prompt-Anweisungen auf Projektebene (d. h. Gesamtextraktion), Feldgruppenebene und einzelner Feldebene.

Hinweis:

Diese bewährten Methoden sind für externe LLMs konzipiert, es können jedoch weiterhin OCR-Probleme auftreten. Selbst bei gut gestalteten Prompts garantiert das Befolgen aller Richtlinien nicht, dass die Extraktionsleistung Ihre Erwartungen erfüllt.

Allgemeine Empfehlungen für Ihre Taxonomie

Klarheit und Einfachheit – Verwenden Sie eine klare, direkte und eindeutige Sprache. Vermeiden Sie überkomplizierte Anweisungen, die das Modell verwechseln könnten. Verwenden Sie einfache Sprache und halten Sie kurze Sätze.
Konsistenz – Pflegen Sie eine konsistente Terminologie über Felder, Feldgruppen und Anweisungen hinweg, um Verwirrung zu vermeiden.
Kontext bereitstellen – Geben Sie dem Modell einen relevanten Kontext, um den allgemeinen Scope der Aufgabe zu verstehen. Dies kann Brancheninformationen, den Dokumenttyp oder das allgemeine Datenformat umfassen, da das Modell die Aufgabe verstehen muss, die es übernimmt. Wenn Sie mehr Kontext innerhalb der Eingabeaufforderung angeben, erhöht dies die Wahrscheinlichkeit, dass das Modell das Feld konsistent korrekt vorhersagt.
Iterieren – Da es sich bei der Optimierung von Prompts um einen iterativen Prozess handelt, kann die Pflege der Aufzeichnung Ihrer Entwürfe und deren entsprechende Ergebnisse wertvolle Erkenntnisse für zukünftige Anpassungen und Verbesserungen liefern. Schreiben Sie einen Prompt, testen Sie ihn und bearbeiten Sie ihn. Wiederholen Sie diesen Vorgang, bis Sie die gewünschte Extraktion erhalten.
Negative Anweisungen vermeiden – Geben Sie keine Anweisung ein, z. B.: Lassen Sie keine Abschnitte des Dokuments aus. Ersetzen Sie es stattdessen durch: Stellen Sie sicher, dass alle wichtigen Abschnitte des Dokuments abgedeckt sind.
Sich wiederholende Sprache vermeiden – Eine sich wiederholende Sprache kann zu Redundanz, Verwirrung und unklaren Anweisungen für das Modell führen.
Achten Sie auf widersprüchliche Informationen – Stellen Sie sicher, dass sich Ihre Projekt-, Feldgruppe- und Feldebenen-Anweisungen in Bezug auf die zu extrahierenden Informationen, das Format der Extraktion und den Ort der Informationen nicht widersprüchlich widerspiegeln. Dadurch wird das Modell unübersichtlich und zu inkonsistenten Ergebnissen geführt.
Beispiele zur Vervollständigung – Unterstützen Sie die Anweisung zur Eingabeaufforderung, wann immer es möglich ist, mit Beispielen für richtige Antworten. Diese Instanzen können das Modell zum erwarteten Ergebnis führen.

Abbildung 1. Beispiel für eine Taxonomie

Projektebene (allgemeine Extraktion)

Best Practices	Details	Wichtigkeit	Korrektes Beispiel	Falsches Beispiel
Definieren Sie die Branche und den Dokumententyp	Beschreiben Sie kurz die Branche und den Dokumententyp, aus dem die Informationen extrahiert werden. Geben Sie dann die Schlüsselmerkmale und die erwartete Struktur des Dokumententyps an, um die Extraktion zu steuern.	Dadurch wird ein wichtiger Kontext für den Datenextraktionsprozess bereitgestellt.	Anweisung: Extrahieren Sie Informationen aus einem Abschnitt eines Abschnitts, die häufig in der Finanzdienstleistungsbranche zu finden sind. Administratorauszüge bestehen in der Regel aus einigen wenigen Abschnitten: Kontoübersicht, Kontozusammenfassung, Kontobestände und Kontotransaktionsaktivität.	Anweisung: Extrahiere folgende Felder aus dem Dokument. Erklärung: Dieses Beispiel für eine Projektanweisung kommt dem Modell nicht zugute. Es enthält keine wichtigen Kontext- oder Schlüsseleigenschaften, die bei der Steuerung des Modells helfen würden.
Geben Sie an, ob Sie mehrere Vorkommen des Dokuments in einer Datei erwarten.	Geben Sie an, wenn das Dokument mehrere Instanzen identischer Daten enthält, und stellen Sie eine Anweisung für jede Extraktionsinstanz bereit. Identifizieren Sie für die Fälle, in denen mehrere Dokumente in einer einzigen Datei enthalten sein können, eine eindeutige Kennung und schließen Sie diese als Feld in jeder Feldgruppe ein.	Dadurch wird die Nachverarbeitung erleichtert und die Automatisierung läuft effizienter.	Anweisung: Es kann mehrere Vermittlungsleistungen in einer einzigen Dokumentendatei geben. Ein Vermittlungskonto kann über ein eindeutiges Kontonummernfeld in jeder Feldgruppe identifiziert werden. Extrahieren Sie die Feldgruppen Kontoinformationen, Kontobesitz und Kontoaktivität für jedes Konto.	Anweisung: Extrahiere alle Instanzen der Daten aus jedem Kontobeleg. Erklärung: Dieses Beispiel für eine Anweisung ist schlecht, da darin nicht angegeben ist, wie bestimmt wird, ob ein Dokumententyp innerhalb der Datei mehrfach vorkommt.

Feldgruppenebene

Best Practices	Details	Wichtigkeit	Korrektes Beispiel	Falsches Beispiel
Gruppieren Sie ähnliche Datenpunkte, die zusammen in Feldgruppen extrahiert werden sollen.	Organisieren Sie verwandte Felder in logische Gruppen.	Dadurch wird die Extraktion optimiert und Fehler minimiert.	Der Name, die Adresse und der Status des Kontoinhabers können unter einer Feldgruppe Informationen zum Kontoinhaber gruppiert werden.	Feldgruppe: Kontodaten Felder : Kontobestände, Transaktionsdatum, Kontoinhaber Erklärung : Diese Gruppierung kann in einer Situation funktionieren, in der ein Benutzer nur diese drei Felder extrahieren möchte. Wenn jedoch andere Felder wie das Auswahlsymbol und die Kostenbasis vorhanden sind, ist das Design oder die Struktur dieser Gruppe nicht das effektivste.
Feldgruppenkontext	Erklären Sie, wie jede Feldgruppe zur allgemeinen Bedeutung und zum Zweck des Dokuments beiträgt.	Dadurch kann das Modell den Kontext der Extraktion verstehen.	Anweisung : In diesem Abschnitt werden die wichtigsten Details des Abschnitts des Abschnitts Abschnitt beschrieben, einschließlich der Sharepoint-Name, das Kaufdatum, die erworbene Menge, die Kostenbasis und der gezahlte Gesamtpreis. Diese Details helfen bei der Bestimmung der aktuellen Beträge in einer Broker-Abrechnung.	Anweisung: Extrahiere folgende Felder aus dem Dokument. Erklärung : In den Eingabeaufforderungsanweisungen fehlen Kontext und detaillierte Anweisungen für das Modell. Es wird weder die Art der Informationen, die extrahiert werden müssen, noch deren Bedeutung hervorgehoben.
Nutzen Sie den Speicherort und die Struktur der Informationen im Dokument innerhalb Ihrer Feldgruppen-Prompts	Geben Sie wahrscheinliche Speicherorte für die Daten jedes Felds an, wie Tabelle, Header, Textkörper, um die Extraktion zu steuern. Hinweis: Wenn Sie an einem Dokument arbeiten, in dem Informationen im selben Abschnitt erscheinen, geben Sie den Abschnitt im Prompt an.	Dadurch kann sich das Modell auf den richtigen Teil des Dokuments für jedes Feld konzentrieren.	Anweisung: Die Daten auf Feldebene für diesen Abschnitt findest du höchstwahrscheinlich im Header des Berichts auf der ersten Seite unter dem Dokumententitel.	Anweisung: Extrahiere die Informationen vom Anfang des Dokuments. Erklärung: Der Prompt ist vage und stellt dem Modell nicht genügend Details dazu bereit, wo es genau im Dokument suchen muss.
Modellieren Sie Tabellen mithilfe von Feldgruppen mit Feldern	Behandeln Sie eine Feldgruppe als Tabelle, wobei jede Spalte als eindeutiges Feld innerhalb dieser Gruppe fungiert. Dieser Ansatz ist der Schlüssel zu einer effektiven Datenmodellierung, da er eine klare Differenzierung gewährleistet, Datenduplizierung minimiert und die Datenkonsistenz erhöht.	Diese Methode ermöglicht eine logisch strukturierte und systematische Anordnung von Daten, was wiederum zu einer höheren Effizienz bei Datenabfragen und -analysen führt.	Feldgruppe: Kunden Felder: Name, Adresse, Telefonnummer	Feldgruppen: Kundenname, Kundenadresse, Telefonnummer des Kunden Felder : Name, Adresse, Telefonnummer Erklärung: In diesem Beispiel werden alle Kundendetails unnötigerweise in eine eigene Feldgruppe getrennt, was die Datenverwaltung komplex und anfällig für Inkonsistenzen macht.
Erstellen übergeordneter und untergeordneter Feldgruppen	Beziehungen werden mit einem Größer-als-Zeichen `>` gekennzeichnet. Eine übergeordnete Feldgruppe kann mehrere untergeordnete Feldgruppen haben.	Die Nutzung von Feldgruppen zur Darstellung von Beziehungen zwischen Daten innerhalb der Dokumente ist eine hervorragende Möglichkeit, die hierarchische Datenorganisation aufrechtzuerhalten.	Feldgruppe: Depotauszug Felder : Kontoinhaber, Kontotyp Feldgruppenname: Depotauszug > Vermögensverteilung Felder: Art des Vermögenswert, z. B. Aktien, Anleihen, Bargeld, Prozentsatz der Gesamtwerte Feldgruppenname: Depotauszug > Investitionen Felder: Investitionsname, Besitzmenge, Preis pro Aktie, Gesamtwert der Investition	Feldgruppe : Kontoinhaber Felder: Name, Investitionsname, Typ des Kontos, Anzahl der Aktien, Aktien, Anleihen Feldgruppe : Kontoinhaber > Adresse Felder: Straße, Stadt, Bundesland, Postleitzahl Feldgruppe: Kontoinhaber > Kontaktdaten Felder : Telefonnummer, E-Mail Erklärung : Dies ist eine schlecht strukturierte Hierarchie, da sie nicht verwandte Felder unter demselben übergeordneten Element kombiniert und die untergeordneten Feldgruppen (Adresse und Kontaktinformationen) sich nicht logisch auf die Felder des übergeordneten Elements beziehen (Investitionsname, Anzahl der Aktien, Aktien, Anleihen ). Dies könnte das KI-Modell verwirren, da es nicht die natürliche Organisation der Daten innerhalb des Dokuments widerspiegelt.
Nehmen Sie ein Schlüsselfeld für Dateien, die mehrere Dokumente in sich enthalten.	Wählen Sie eine eindeutige Kennung im Dokument, anhand der Sie die Daten unterscheiden können. Schließen Sie dieses Feld in jeder Feldgruppe auf. Sie müssen die Anweisung für dieses Feld nicht von einer Feldgruppe zu einer anderen ändern.	Durch die Einbeziehen dieses Schlüsselfelds lassen sich Informationen innerhalb des Dokuments trennen und Verwirrung bei der Verarbeitung der extrahierten Daten beseitigen.	Feld: Kontonummer, Sozialversicherungsnummer, Policenummer	Feld : Datum, Name Erklärung : Die aufgeführten Feldnamen wären keine guten Schlüsselfelder, da sie nicht eindeutig sind. Daten und Namen können sowohl wiederholt werden.

Feldebene

Best Practices	Details	Wichtigkeit	Korrektes Beispiel	Falsches Beispiel
Wählen Sie Feldnamen sorgfältig aus.	Wählen Sie klare, erkennbare Namen für Felder, die den Erwartungen des Benutzers entsprechen. Wenn es einen universellen Namen gibt, der in allen Dokumentenvarianten verwendet wird, stellen Sie sicher, dass er auch einbezogen wird.	Präzise Feldnamen gewährleisten eine genaue Extraktion und reduzieren Mehrdeutigkeiten.	Feld: Datum des Vorfalls	Feld: Datum Erklärung: Datum ist ein generischer Begriff und bietet keinen Kontext darüber, worauf sich das Datum bezieht. Dies kann zu einer ungenauen Datenextraktion führen, da das KI-Modell jedes Datum erfassen kann, das im Dokument angezeigt wird.
Seien Sie explizit und detailliert bei den Anweisungen	Starten Sie das Modell, indem Sie explizit angeben, was das Modell extrahieren soll. Geben Sie das genaue Format und die Struktur der zu extrahierenden Daten an.	Klare, detaillierte Prompts leiten das Modell, damit sie genau das extrahieren, was Sie benötigen, in dem von Ihnen erwarteten Format.	Anweisung: Extrahiere die Liste aller Berater aus dem Dokument, formatiere sie in einer durch Komma getrennten Liste und ordne sie in alphabetischer Reihenfolge an.	Anweisung: Zieh alle Berater heraus. Erklärung: Die Eingabeaufforderung ist vage und enthält keine klaren Anweisungen zum gewünschten Ergebnis und zur Formatierung. Dies kann zu Inkonsistenzen in den extrahierten Informationen führen, was die Verarbeitung der Ergebnisse schwieriger macht.
Beispiele innerhalb der Anweisungen bereitstellen	Geben Sie Beispieleingaben und entsprechende erwartete Ausgaben an, um die erwarteten Ergebnisse zu erläutern.	Dadurch kann das Modell genau verstehen, wonach Sie suchen.	Anweisung: Extrahieren Sie die Transaktionsdaten aus dem Dokument. Die Datumsangaben müssen das Format `MM/DD/YYYY` haben. Wenn das Dokument beispielsweise enthält, dass die Transaktion am 1. Januar 2021 abgeschlossen wurde, sollte das extrahierte Datum der 01.01.2021 sein. Wenn das Transaktionsdatum im Format `MM/YYYY` angegeben ist, extrahieren Sie es als ersten Tag dieses Monats. Wenn das Datum beispielsweise als 05/2021 angezeigt wird, extrahieren Sie es als 05/01/2021.	Anweisung: Ruf die Transaktionsdaten aus dem Dokument ab. Erklärung: Die obige Eingabeaufforderung ist nicht so effektiv, da sie keine expliziten Anweisungen zum Umgang mit verschiedenen Datumsformaten im Dokument enthält. Dieser Mangel an Klarheit kann zu einer inkonsistenten Extraktion von Daten führen, was die Interpretation und Analyse von Daten komplizierter macht.
Halten Sie sich pro Feldanweisung an eine Hauptidee	Überladen Sie den Prompt nicht, indem Sie versuchen, große, sequenzielle Datenmengen in einem einzelnen Feld zu extrahieren, um die Genauigkeit zu verbessern. Jede Feldebene sollte sich auf die Extraktion eines Datums konzentrieren.	Dadurch wird auch die Nachbearbeitung vereinfacht.	Feld 1: Extrahiere die Kontonummer. Feld 2: Extrahiere das Transaktionsdatum. Feld 3: Extrahiere den Kontostand.	Anweisung: Extrahiere die Kontonummer, das Transaktionsdatum und den Kontostand zusammen. Erklärung: Die Eingabeaufforderung ist mit mehreren Anweisungen überlastet, die das Modell anweisen, verschiedene Datentypen gleichzeitig zu extrahieren. Dieser Ansatz kann unzulässige Extraktionsergebnisse führen und die Nachverarbeitung schwierig machen.

Feldtypenebene

Best Practices Details Wichtigkeit Korrektes Beispiel Falsches Beispiel

Wählen Sie Datentypen gezielt aus

Best Practices	Details	Wichtigkeit	Korrektes Beispiel	Falsches Beispiel
Wählen Sie Datentypen gezielt aus	Überlegen Sie, wie die extrahierten Daten formatiert werden sollen, und stellen Sie sicher, dass sie an den nachgelagerten Anwendungsfällen ausgerichtet sind, um die Extraktion für die Automatisierung zu optimieren. Datum – Stellen Sie damit Datumsangaben im Text dar. Datumsangaben werden als UTC mit einem Format `YYYY-MM-DD HH:MM:SS` normalisiert. Exakter Text – Stellen Sie damit Text dar, der im Text wörtlich angezeigt wird. Abgeleiteter Text – Verwenden Sie diese Option für Text, der möglicherweise nicht wörtlich im Text erscheint, aber über andere Kennungen im Dokument verfügt. Geldbetrag – Damit können Geldwerte im Text darstellen. Geldbträge werden in den folgenden Beispielformaten normalisiert: `$00.00`oder `00.00 USD`. Zahl – Stellen Sie damit Beträge oder Mengen im Text dar. Zahlen werden aus dem Dokument abgeleitet, Benutzer können Werte eingeben und optional Beweisen Anmerkungen hinzufügen. Der Wert wird als Dezimalwert formatiert, `00.00`.	Die Auswahl des entsprechenden Datentyps ermöglicht eine genaue Formatierung und eine einfachere nachgelagerte Verarbeitung.	Feldname : Transaktionsvolumen Datentyp : Zahl	Feldname : Telefonnummer Datentyp : Zahl Erklärung : Die Verwendung des Datentyps Zahl für eine Telefonnummer ist nicht sinnvoll. Obwohl eine Telefonnummer aus Ziffern besteht, ist sie kein numerischer Wert, was bedeutet, dass Sie nicht mit ihr arithmetisch arbeiten; sie wird besser als Zeichenfolge von Ziffern beschrieben. Daher wäre die Verwendung eines Datentyps „Exact Text“ die richtige Wahl.
Fügen Sie nur feldtypspezifische Anweisungen in den Feldtyp ein.	Bei der Bereitstellung von Anweisungen für die Datenextraktion ist es wichtig, diese spezifisch für jeden Feldtyp zu halten. Wenn es allgemeine Anweisungen gibt, die für alle Felder eines bestimmten Typs gelten, kann ein Benutzer sie auf der Feldtypenebene ausgeben, um Wiederholungen zu vermeiden. Wenn zum Beispiel alle Geldbetragsfelder in USD sein müssen, geben Sie dies auf der Feldtypenebene an. Für einige Datasets sind jedoch möglicherweise eindeutige Felder erforderlich, die nicht von vorhandenen Feldtypen (Datum, Text, Geldbetrag usw.) abgedeckt werden. In diesen Fällen können Sie einen neuen, benutzerdefinierten Feldtyp erstellen. Geben Sie beim Schreiben von Anweisungen für diese neuen Felder an, wie die Daten formatiert werden sollen, um sicherzustellen, dass die extrahierten Daten ihren beabsichtigten Zweck erfüllen. Diese Praktiken verbessern die Genauigkeit und Konsistenz Ihrer extrahierten Daten.		Feldtyp : Datum Anweisung : Extrahieren Sie alle Daten, die Transaktionen zugeordnet sind, aus dem Dokument. Daten müssen auf das Format `YYYY-MM-DD`normalisiert werden.	Feldtyp: Geldbetrag Anweisung: Extrahiere den Artikelpreis aus der Spalte Preis in der Tabelle mit den Rechnungsposten. Erklärung: Die Anweisung ist speziell für die Extraktion eines Geldbetrags aus einem bestimmten Feld (der Preisspalte) relevant, nicht für ein anderes auf Geldbetrag basierendes Feld.

Überlegen Sie, wie die extrahierten Daten formatiert werden sollen, und stellen Sie sicher, dass sie an den nachgelagerten Anwendungsfällen ausgerichtet sind, um die Extraktion für die Automatisierung zu optimieren.

Datum – Stellen Sie damit Datumsangaben im Text dar. Datumsangaben werden als UTC mit einem Format YYYY-MM-DD HH:MM:SS normalisiert.

Exakter Text – Stellen Sie damit Text dar, der im Text wörtlich angezeigt wird.

Abgeleiteter Text – Verwenden Sie diese Option für Text, der möglicherweise nicht wörtlich im Text erscheint, aber über andere Kennungen im Dokument verfügt.

Geldbetrag – Damit können Geldwerte im Text darstellen. Geldbträge werden in den folgenden Beispielformaten normalisiert: $00.00oder 00.00 USD.

Zahl – Stellen Sie damit Beträge oder Mengen im Text dar. Zahlen werden aus dem Dokument abgeleitet, Benutzer können Werte eingeben und optional Beweisen Anmerkungen hinzufügen. Der Wert wird als Dezimalwert formatiert, 00.00.

Die Auswahl des entsprechenden Datentyps ermöglicht eine genaue Formatierung und eine einfachere nachgelagerte Verarbeitung.

Feldname : Transaktionsvolumen

Datentyp : Zahl

Feldname : Telefonnummer

Datentyp : Zahl

Erklärung : Die Verwendung des Datentyps Zahl für eine Telefonnummer ist nicht sinnvoll. Obwohl eine Telefonnummer aus Ziffern besteht, ist sie kein numerischer Wert, was bedeutet, dass Sie nicht mit ihr arithmetisch arbeiten; sie wird besser als Zeichenfolge von Ziffern beschrieben. Daher wäre die Verwendung eines Datentyps „Exact Text“ die richtige Wahl.

Fügen Sie nur feldtypspezifische Anweisungen in den Feldtyp ein.

Bei der Bereitstellung von Anweisungen für die Datenextraktion ist es wichtig, diese spezifisch für jeden Feldtyp zu halten. Wenn es allgemeine Anweisungen gibt, die für alle Felder eines bestimmten Typs gelten, kann ein Benutzer sie auf der Feldtypenebene ausgeben, um Wiederholungen zu vermeiden. Wenn zum Beispiel alle Geldbetragsfelder in USD sein müssen, geben Sie dies auf der Feldtypenebene an.

Für einige Datasets sind jedoch möglicherweise eindeutige Felder erforderlich, die nicht von vorhandenen Feldtypen (Datum, Text, Geldbetrag usw.) abgedeckt werden. In diesen Fällen können Sie einen neuen, benutzerdefinierten Feldtyp erstellen. Geben Sie beim Schreiben von Anweisungen für diese neuen Felder an, wie die Daten formatiert werden sollen, um sicherzustellen, dass die extrahierten Daten ihren beabsichtigten Zweck erfüllen. Diese Praktiken verbessern die Genauigkeit und Konsistenz Ihrer extrahierten Daten.

Feldtyp : Datum

Anweisung : Extrahieren Sie alle Daten, die Transaktionen zugeordnet sind, aus dem Dokument. Daten müssen auf das Format YYYY-MM-DDnormalisiert werden.

Feldtyp: Geldbetrag

Anweisung: Extrahiere den Artikelpreis aus der Spalte Preis in der Tabelle mit den Rechnungsposten.

Erklärung: Die Anweisung ist speziell für die Extraktion eines Geldbetrags aus einem bestimmten Feld (der Preisspalte) relevant, nicht für ein anderes auf Geldbetrag basierendes Feld.

Beispiele für Felder und Feldtypen

Unterschriften

Wenn Ihre Dokumente Signaturen enthalten, stellen Sie sicher, dass Sie die folgenden Best Practices anwenden:

Einen booleschen Datentyp für ein Signiert von X verwenden? verwenden, d. h. Ist es von dieser Person signiert? sowie ein Textfeld für den Namen der Person, das normalerweise gedruckt wird.
Wenn Sie Signaturen normalerweise in einem Tabellen- oder tabellenähnlichen Format finden, verwenden Sie die Option Vorverarbeitung des Tabellenmodells .
Fehler treten am häufigsten in einem Dokument mit mehreren Unterzeichnern auf, einschließlich der genannten Person im Dokument als auch ihres solltes können.
Machen Sie Folgendes klar und beschreibend:
- Was ist eine Signatur?
- Was ist keine Signatur?
- Wer muss das Dokument signieren?
- Wie erkennt man die Person, die das Dokument unterschreiben muss?
Berücksichtigen Sie potenzielle Fehlerfälle in Ihren Dokumenten und fügen Sie sie in die Anweisungen ein, wie im folgenden Beispiel beschrieben:

Anweisungsbeispiel für ein Feld Signiert durch Unterzeichner

Stellen Sie sicher, ob der Unterzeichner, nicht derleistete, das Dokument signiert hat.

Gibt „true“ nur zurück, wenn das Dokument von diesem Unterzeichner signiert wurde. Gibt „false“ zurück, wenn es nicht von ihnen signiert ist.

Unterschriften sehen möglicherweise nicht wie der gedruckte Name aus, also suchen Sie einfach nach einer Unterschrift oder einer handschriftlichen Unterschrift-ähnlichen Ergänzung des Dokuments im Bereich für die Unterschrift in der Nähe des Namens des jeweiligen Unterzeichners.

Wird ein Name durch einen handschriftlichen Zusatz geändert, sollte dies nicht als Signatur behandelt werden, sondern nur als explizite Signaturen.

Signaturen befinden sich in der Regel in der Nähe und um das Wort „Signiert von“ oder eine Variante wie „Als Dokument signiert“, „In Anwesenheit von“ usw.

Eine gepunktete Linie stellt keine Signatur dar.

Wenn es sich um eine allgemeine Signaturfeldgruppe handelt, die ein signiertes Feld enthält, das mit dem Namen oder der Position des Unterzeichners oder beides kombiniert wird, können Sie in den Anweisungen Folgendes hinzufügen: Stellen Sie sicher, dass Sie Signaturen der richtigen Person zuordnen.

Eine Beispielanweisung für eine breitere Signaturfeldgruppe lautet:

Anweisungsbeispiel für eine Signaturfeldgruppe

Informationen über die unterzeichnenden Personen und den Status des Dokuments. Wenn mehrere Signaturblöcke und mehrere Personen im Dokument vorhanden sind, extrahieren Sie alle. Möglicherweise gibt es keinen expliziten Signaturblock, Vereinbarungen und Schreiben wurden möglicherweise von der Person, die sie absendet, mit einem Signaturblock für die akzeptierende Person signiert. Extrahieren Sie in diesem Fall beide Signatursätze.

Hinweis:
Wenn die Leistung immer noch nicht zufriedenstellend ist, auch nachdem Sie beharrlich versucht haben, sie durch Abstimmung von Anweisungen zu verbessern, wenden Sie sich an Ihren Account Manager. Sie können überprüfen, ob in Ihrer Region Funktionen zur Vorschauverarbeitung verfügbar sind, die helfen könnten.

Regionale Unterschiede

Geldmengen und Kommastrennzeichen

Ein Beispiel für regionale Unterschiede, die eine Aufforderung zur Korrektur des standardmäßigen LLM-Verhaltens erfordern können, ist die Verwendung von Kommas als Dezimaltrennzeichen in bestimmten Ländern, wie Deutschland und Indien.

Das folgende Beispiel für einen Anwendungsfall für Belege in Deutsch zeigt, wie Sie das Vorhandensein von Werten in einem unerwarteten Format berücksichtigen können:

Anweisungsbeispiel

Sie extrahieren Daten aus deutschen Belegen. Geldbeträge sind alle in Euro angegeben, während das Euro-Zeichen möglicherweise fehlt. „,“ ist das typische Dezimaltrennzeichen für alle Zahlen, während „.“ wird zum Formatieren größerer Werte verwendet.

Um festzustellen, ob dieses Format verwendet wird, prüfen Sie, ob es ein Komma als letztes Trennzeichen im Wert gibt. Wenn nicht, wird die Zahl wahrscheinlich im alternativen Format formatiert: „,“ für die Formatierung und „.“ für Dezimalstellen.

Beträge haben in der Regel zwei Dezimalstellen (z. B 8,58 ist 8,58 dazu Erwarten Sie, dass einzelne Elemente in Lebensmithilfe unter 100 E Bereich liegen.

Testen und Iterieren

Erstellen Sie ein Feld für alle Informationen, die extrahiert werden sollen, aber keine Anweisungen enthalten.
Wählen Sie eine Stichprobe von 2 bis 3 Dokumenten und führen Sie Vorhersagen für jedes Dokument aus. Diese Dokumente sollten die in den Dokumenten vorhandene Varianz widerspiegeln, für die Sie das Modell erstellen.
Vergleichen Sie die Extraktionen des Modells mit den erwarteten Ergebnissen. Entwerfen Sie für die Felder, die nicht gut abgeschnitten haben, einen Prompt mithilfe der zuvor aufgeführten Best Practices, da diese als Ihren Basisprompt dient.
Führen Sie mithilfe derselben 2 bis 3 zuvor getesteten Beispieldokumente die Vorhersagen erneut aus, um zu überprüfen, ob sich die Extraktionsleistung verbessert hat.
Wenn die Vorhersagen falsch oder unvollständig sind, verfeinern Sie die Prompts, um zur Verbesserung Extraktionsleistung des Modells die erforderlichen Details hinzuzufügen. Wenn die Vorhersagen Ihren Erwartungen entsprechen, vergrößern Sie die Stichprobe Ihrer Dokumente. Es ist wichtig, die Zahlen schrittweise zu erhöhen. Gehen Sie von 2 zu 3 zu 10, dann zu 20, 30 usw. Fahren Sie fort, bis Sie sicher sind, dass die Vorhersagen des Modells korrekt sind.
Wenn sich die Anweisungen geändert haben, bewerten Sie zuvor angezeigte Dokumente neu, um sicherzustellen, dass die Vorhersagen korrekt bleiben.
Sobald Sie mit der Leistung des Modells zufrieden sind, gehen Sie zum ersten Dokument zurück und beginnen Sie damit, Anmerkungen hinzuzufügen. Fügen Sie mindestens 10 Dokumenten Anmerkungen hinzu, um über die Registerkarte Messen wertvolle Leistungsmetriken zu dem Feld zu erhalten. Mit dieser Funktion können Sie die Extraktionsleistung sowohl auf der Gesamtprojekt- als auch auf der Feldebene evaluieren.
Überwachen Sie Leistungsmetriken, um Ihre Prompts im großen Maßstab zu verfeinern. Der Prozess der Prompt-Iteration sollte in erster Linie auf Feldebene erfolgen, da Anpassungen gezieltere und direkte Auswirkungen auf die spezifischen Felder haben, die nicht gut funktionieren. Wenn die Punktzahl für eine Feldgruppe nicht gut funktioniert, kann die Anpassung Ihrer Projekt- und Feldgruppenanweisungen wirksamer sein, da sie sich auf mehrere Felder auswirken.

Auf dieser Seite

Allgemeine Empfehlungen für Ihre Taxonomie
Projektebene (allgemeine Extraktion)
Feldgruppenebene
Feldebene
Feldtypenebene
Beispiele für Felder und Feldtypen
Unterschriften
Regionale Unterschiede
Testen und Iterieren

War diese Seite hilfreich?

Vorherige (previous)Definieren der Taxonomie

WeiterVerwalten der Taxonomie

Allgemeine Empfehlungen für Ihre Taxonomie​

Projektebene (allgemeine Extraktion)​

Feldgruppenebene​

Feldebene​

Feldtypenebene​

Beispiele für Felder und Feldtypen​

Unterschriften​

Regionale Unterschiede​

Geldmengen und Kommastrennzeichen​

Anweisungsbeispiel​

Testen und Iterieren​