- Document Understanding-Versionshinweise
- ML-Pakete und öffentliche Endpunkte – Versionshinweise
Document Understanding-Versionshinweise
Oktober 2021
Verbesserungen
Felder mit weniger als 10 beschrifteten Dokumenten können ohne Bestätigung gelöscht werden.
Fehlerbehebungen
- Es wurde ein Fehler behoben, der importierte Dateien mit demselben Namen betraf.
- Es wurde ein Fehler in Google OCR behoben, der einen Fehler bei Dokumenten mit leeren Seiten ausgeworfen hat.
- Es wurde ein Fehler behoben, der die Anzahl der Dateien im Dialogfeld Daten importieren für Dataset-Importe der Validation Station oder des Data Manager falsch anzeigte.
Bekannte Probleme (Known Issues)
- Der Standardexport (Dokumentebene) funktioniert nur mit ML-Paketen der Version 21.10 oder höher im AI Center. Die Version wird in der Spalte Änderungsprotokoll der Ansicht „ML-Pakete“ im AI Center angezeigt. Verwenden Sie für ältere Versionen das Kontrollkästchen Abwärtskompatibler Export im Dialogfeld Dateien exportieren.
Unterstützung von mehrseitigen Dokumenten
Der Data Manager unterstützt jetzt mehrseitige Dokumente. Dies ist ein umfangreiches Update, das sich auf jeden Aspekt eines Machine Learning-Flows auswirkt:
Importieren: Sie können Dokumente mit bis zu 150 Seiten hochladen; um diese Grenze zu umgehen, auch auf die Gefahr hin, dass das Beschriften instabil wird, aktivieren Sie das Kontrollkästchen Große Dokumente ermöglichen von der Dialogbox Daten importieren.
Vorbeschriftung: Das Dokument wird insgesamt vorbeschriftet, was zu den gleichen Ergebnissen führt wie die Ausführung im RPA-Workflow, aber bei größeren Dokumenten dauert es länger. Siehe auch Bekannte Probleme unten.
Beschriftung: Einfachere Beschriftung durch natürliches Scrollen durch Dokumentseiten.
Exportieren: Standardmäßig auf Dokumentebene durchgeführt. Wenn Sie die Dokumente auf Seitenebene exportieren möchten, aktivieren Sie das Kontrollkästchen Abwärtskompatibler Export im Dialogfeld Dateien exportieren; dies wird auch empfohlen, wenn die vom Standardexport erzeugte Modellgenauigkeit unter den Erwartungen liegt.
Training: In den meisten Szenarien sollten die Modelle, die mit den neuen exportierten Datasets auf Dokumentebene trainiert wurden, die gleiche Leistung wie der abwärtskompatible Export auf Seitenebene haben. Wenn die Modelle jedoch hinter den Erwartungen zurückbleiben, empfehlen wir Ihnen, das Training auch mit einem abwärtskompatiblen Export zu wiederholen, falls dieser bessere Ergebnisse liefert.
Auswertung: Das ist der Hauptgrund für die Unterstützung von mehrseitigen Dokumenten, da die Auswertungsergebnisse die Laufzeitleistung genauer widerspiegeln. Bitte beachten Sie, dass davon ausgegangen wird, dass jedes mehrseitige Dokument ein einzelnes logisches Dokument enthält. Wenn Sie z. B. Dateipakete mit 20 Seiten importieren, die jeweils 10 Rechnungen von je 2 Seiten enthalten, dann sollten diese nicht als Teil von Auswertungssätzen verwendet werden. Sie können jedoch als Teil von Trainingssätzen verwendet werden, aber nur dann, wenn Sie den Export mithilfe der aktivierten Abwärtskompatibilität durchführen.
Verbesserungen
Exportieren der Schemaunterstützung mithilfe des Optionsfelds im Dialogfeld Dateien exportieren.
Die maximale Importgröße wurde auf 2 GB oder 2000 Seiten erhöht.
Der Testsatz wurde für die Konsistenz mit den AI Center-Auswertungspipelines in Auswertungssatz umbenannt.
Die Schaltfläche Vorhersage wird standardmäßig in der Verwaltungsleiste angezeigt, aber die Einstellungen zum Vorbeschriften müssen konfiguriert werden, damit die Schaltfläche aktiviert ist.
Alle Einschränkungen für die Anzahl der Proben pro Feld wurden aus den Exporten von Auswertungssätzen entfernt.
In der Verwaltungsleiste wurde der Data Manager-Sitzungsname neben dem Dateinamen hinzugefügt, um die Sitzung, an der Sie arbeiten, einfacher zu identifizieren, falls mehrere Data Manager-Registerkarten gleichzeitig geöffnet sind.
Dokumente in chinesischer Sprache werden unterstützt.
Verbesserungen der Barrierefreiheit.
Lokalisierung für Portugiesisch – Portugal, Russisch und Türkisch.
Bekannte Probleme (Known Issues)
- Das Modell InvoicesChina formatiert chinesische Datumsangaben nicht in das Standardformat yyyy-mm-dd. Das wird in zukünftigen Releases verbessert.
- Die Data Manager-Analysen der Datumsangaben stimmen nicht mit denen von ML-Modellen zur Laufzeit überein. Wenn Sie feststellen, dass Daten in Data Manager falsch analysiert werden, werden sie wahrscheinlich zur Laufzeit in der Modellvorhersage korrekt analysiert. Das ist ein bekanntes Problem und wird bald in einem Patch behoben.
- Mit der Option Vorhersage können Sie mit öffentlichen Endpunkten nur die ersten 10 Seiten eines Dokuments vorbeschriften. Das ist ein bekanntes Problem – eine Verbesserung wird in einem Patch folgen. Die Verwendung der Option Vorhersage mit ML-Fähigkeiten im AI Center erzwingt jedoch keine solche Einschränkung.