Document Understanding – Einschränkungen für den Datenverkehr

document-understanding

latest

false

Document Understanding-Benutzerhandbuch

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Einschränkungen für den Datenverkehr

Die ML-Pakete zur Extraktion und Klassifizierung erfordern eine beträchtliche Menge an Rechenressourcen, was einige Einschränkungen mit sich bringt, wenn die Größe der Dokumente und/oder die Anzahl an Dokumenten pro Minute wachsen.

Bei Dokumenten, die größer als 100 Seiten sind, werden voraussichtlich Rechen- oder Latenzbeschränkungen auftreten, was dazu führt, dass ML-Fähigkeiten instabil sind oder HTTP-Fehler zurückgeben. Eine genaue Obergrenze ist schwer zu definieren, da die Textdichte und Bildauflösung von Dokumenten stark variieren können und die Textdichte (Anzahl der Wörter pro Seite) sich auf die erforderlichen Rechen- und RAM-Ressourcen sowie auf die Latenz auswirkt. Darüber hinaus hängt die Kapazität einer ML-Fähigkeit von der Kapazität der Hardware ab, die für ihre Bereitstellung verwendet wird, die vom AI Center gesteuert wird. Beispielsweise können ML-Fähigkeiten auf der GPU oder auf der CPU bereitgestellt werden, was einen großen Einfluss auf die Kapazität und Geschwindigkeit der ML-Fähigkeit hat.

Was den Durchsatz angeht: ML-Fähigkeiten können jeweils nur ein Dokument verarbeiten. Das bedeutet, dass Sie warten müssen, bis ein Dokument fertig gestellt ist, bevor Sie das nächste senden. Je größer die Dokumente, desto weniger Dokumente können Sie pro Zeiteinheit verarbeiten.

Um diese Probleme zu verringern, sollten Sie bei der Verarbeitung sehr großer Dokumente bedenken, dass sich die relevanten Daten in vielen Fällen auf einer kleineren Teilmenge von Seiten befinden und diese Teilmenge mit dem Intelligent Keyword Classifier aufgeteilt werden kann. Dies kann sehr effektiv sein, da so Fehler/Ausfälle/Timeouts bei ML-Fähigkeiten eliminiert werden, der Durchsatz und die Reaktionsfähigkeit steigen, die Extraktionsgenauigkeit durch die Reduzierung von falsch positiven Ergebnissen erhöht wird und die Kosten sinken, indem unnötiger Verbrauch von AI Units verhindert wird.

War diese Seite hilfreich?

Vorherige (previous)Öffentliche Endpunkte

WeiterOCR-Konfiguration