- Überblick
- Modellerstellung
- Modellvalidierung
- Modellbereitstellung
- Häufig gestellte Fragen

Benutzerhandbuch für Unstrukturierte und komplexe Dokumente
Sie können das zugrunde liegende LLM sowie dessen Einstellungen in der Option Modellkonfiguration auf der Registerkarte Erstellen konfigurieren.
- Intelligente Vorverarbeitung:
- Keine
- Tabellenmodell – Mini
- Tabellenmodell
- Extraktionsmodell:
- GPT-4o
- Gemini
- Erweiterte Optionen:
- Zuordnung
- Temperatur
- Erste P
- Seed
- Ahndung für Häufigkeit
- Prompt-Überschreibung
Passen Sie diese Einstellungen an, um die Genauigkeit der Vorhersagen des Modells und die Leistung zu verbessern.
Mithilfe der Optionen zur intelligenten Vorverarbeitung lässt sich die Vorhersageleistung verbessern, wenn Dokumente aufgrund komplexer Formatierung für Modelle schwer zu interpretieren sind.
- Keine – Diese Standardoption ist für die meisten Dokumente geeignet, die keine Tabelleninhalte enthalten.
- Tabellenmodell – Mini – Für Tabelleninhalte und Latenz optimiert. Diese Option eignet sich am besten für Dokumente mit einfachen Tabellen oder mehreren Tabellen.
- Tabellenmodell – Für komplexere Tabelleninhalte optimiert. Diese Option eignet sich am besten für Dokumente mit komplexen geschachtelten Tabellen, Tabellen mit zusammengeführten Zellen, Aufzählungspunkten oder Tabellen, die sich über mehrere Seiten erstrecken.
Hinweis:
- Sie funktioniert bestens bei komplexen Tabellen, erhöht jedoch die Latenz von Vorhersagen.
- Diese Funktion basiert auf Gemini-Modellen über den AI Trust Layer.
Beispiel für eine intelligente Vorverarbeitung
this period mit denen in der Spalte year to date verwechselt werden.this period und year to date, korrekt extrahiert werden.Die Option Extraktionsmodell stellt das zugrunde liegende LLM dar, das für die Extraktion verwendet wird.
- GPT-4o
- Gemini
Auswahl des am besten geeigneten Modells
Die Leistung der verschiedenen Modelle unterscheidet sich je nach Einsatzgebiet, aber wir empfehlen Ihnen, bei Möglichkeit Gemini zu verwenden. Mehrere andere Vor- und Nachverarbeitungsfunktionen, die zur Optimierung der Leistung und Benutzererfahrung beitragen, basieren ebenfalls auf Gemini.
GPT-4o ist auf 50 Seiten beschränkt und kann nur mit der derzeit in der Vorschau vorgesehenen Funktion „Iterativer Prozess“ mehr verarbeiten.
Gemini kann Dokumente in IXP bis zu 200 Seiten in einem einzigen Aufruf verarbeiten, wobei in der Vorschau höhere Seitenanzahl unterstützt wird. Das Gemini-Limit kann je nach Dichte der Feldwerte innerhalb des Dokuments leicht variieren. Das Gemini-Modell hat standardmäßig ein Eingabelimit von 200 Seiten im Vergleich zum 50-Seiten-Eingabelimit von GPT-4o. Darüber hinaus verfügt Gemini über ein höheres Ausgabekontextfenster, wodurch mehr Feldwerte verarbeitet werden können.
Von einem Modell zu einem anderen wechseln
Um von einem Modell zum anderen zu wechseln, verwenden Sie die Auswahlliste der Option Extraktionsmodell und wählen Sie Speichern. Dadurch wird automatisch die Erstellung einer neue Projektversion und die Generierung neuer Vorhersagen ausgelöst.
Wenn Sie aus Leistungsgründen das Modell wechseln müssen, überprüfen Sie zunächst, ob das alternative Modell das Kernproblem lösen kann, das mit dem aktuellen Modell nicht lösbar ist. Wenn möglich, optimieren Sie das neue Modell, um die Leistungsmetriken in Measure zu verbessern.
Mithilfe der erweiterten Optionen können Sie die Einstellungen für Ihre Modelle anpassen, die Zuordnungsmethode auswählen und die Prompt-Überschreibung verwenden.
Erweitern Sie die Einstellung, um alle verfügbaren Optionen zu sehen:
- Zuordnung – Methode, mit der Vorhersagen dem relevanten Teil oder Text im Dokument zugeordnet werden. Wählen Sie eine der folgenden Optionen aus:
- Regelbasiert – Es werden mithilfe eines umfangreichen Regelwerks und von Heuristiken, die richtigen Spannen auf einer Seite mit den vom Modell vorhergesagten Werten abgeglichen. Diese Option hat eine niedriger Latenz, verliert aber im Vergleich zur modellbasierten Option bei der erfolgreichen Zuweisung an Leistung.
- Modellbasiert – Arbeitet mit einem zusätzlichen LLM-Aufruf, um die vorhergesehenen Werte den korrekten Spannen auf der Seite zuzuordnen, da sich diese Werte häufig an verschiedenen Stellen der Seite wiederholen können. Es ist die effizienteste Option in Bezug auf erfolgreiche Zuordnungen, verursacht aber eine gewisse Latenz bei Vorhersagen. Diese Option basiert auf der Verwendung von Gemini-Modellen.
- Temperatur – Die zu verwendende Probenahmetemperatur. Wählen Sie eine Zahl zwischen 0,0 und 2,0. Höhere Werte machen die Ausgabe zufälliger.
- Top P – Nur Samples aus Token mit der Wahrscheinlichkeitsmasse
top_p. Wählen Sie eine Zahl zwischen 0,0 und 1,0. - Seed - Falls angegeben, sollten wiederholte Anforderungen mit demselben Seed und denselben Parametern dasselbe Ergebnis liefern.
- Häufigkeitsstrafe – Wählen Sie eine Zahl zwischen -2,0 und 2,0. Positive Werte verringern die Wahrscheinlichkeit, dass das Modell Token wiederholt, die bereits im Text erschienen sind.
- Prompt überschreiben – Überschreibt den standardmäßigen Systemprompt mit einem neuen Wert. Diese Option ist standardmäßig deaktiviert. Nach der Aktivierung werden die Optionen Prompt mit Aufgabenanweisungen anhängen und Prompt mit Feldanweisungen anhängen ebenfalls für die Konfiguration aktiviert.