Document Understanding
Neuestes
False
  • Versionshinweise
Bannerhintergrundbild
Document Understanding-Versionshinweise
Letzte Aktualisierung 17. Mai 2024

Oktober 2021

General Release Notes - Document Understanding

19. Oktober 2021

Verbesserungen

Felder mit weniger als 10 beschrifteten Dokumenten können ohne Bestätigung gelöscht werden.

Fehlerbehebungen

  • Es wurde ein Fehler behoben, der importierte Dateien mit demselben Namen betraf.
  • Es wurde ein Fehler in Google OCR behoben, der einen Fehler bei Dokumenten mit leeren Seiten ausgeworfen hat.
  • Es wurde ein Fehler behoben, der die Anzahl der Dateien im Dialogfeld Daten importieren für Dataset-Importe der Validation Station oder des Data Manager falsch anzeigte.

Bekannte Probleme (Known Issues)

  • Der Standardexport (Dokumentebene) funktioniert nur mit ML-Paketen der Version 21.10 oder höher im AI Center. Die Version wird in der Spalte Änderungsprotokoll der Ansicht „ML-Pakete“ im AI Center angezeigt. Verwenden Sie für ältere Versionen das Kontrollkästchen Abwärtskompatibler Export im Dialogfeld Dateien exportieren.

1. Oktober 2021

Unterstützung von mehrseitigen Dokumenten

Der Data Manager unterstützt jetzt mehrseitige Dokumente. Dies ist ein umfangreiches Update, das sich auf jeden Aspekt eines Machine Learning-Flows auswirkt:

Importieren: Sie können Dokumente mit bis zu 150 Seiten hochladen; um diese Grenze zu umgehen, auch auf die Gefahr hin, dass das Beschriften instabil wird, aktivieren Sie das Kontrollkästchen Große Dokumente ermöglichen von der Dialogbox Daten importieren.

Vorbeschriftung: Das Dokument wird insgesamt vorbeschriftet, was zu den gleichen Ergebnissen führt wie die Ausführung im RPA-Workflow, aber bei größeren Dokumenten dauert es länger. Siehe auch Bekannte Probleme unten.

Beschriftung: Einfachere Beschriftung durch natürliches Scrollen durch Dokumentseiten.

Exportieren: Standardmäßig auf Dokumentebene durchgeführt. Wenn Sie die Dokumente auf Seitenebene exportieren möchten, aktivieren Sie das Kontrollkästchen Abwärtskompatibler Export im Dialogfeld Dateien exportieren; dies wird auch empfohlen, wenn die vom Standardexport erzeugte Modellgenauigkeit unter den Erwartungen liegt.

Training: In den meisten Szenarien sollten die Modelle, die mit den neuen exportierten Datasets auf Dokumentebene trainiert wurden, die gleiche Leistung wie der abwärtskompatible Export auf Seitenebene haben. Wenn die Modelle jedoch hinter den Erwartungen zurückbleiben, empfehlen wir Ihnen, das Training auch mit einem abwärtskompatiblen Export zu wiederholen, falls dieser bessere Ergebnisse liefert.

Auswertung: Das ist der Hauptgrund für die Unterstützung von mehrseitigen Dokumenten, da die Auswertungsergebnisse die Laufzeitleistung genauer widerspiegeln. Bitte beachten Sie, dass davon ausgegangen wird, dass jedes mehrseitige Dokument ein einzelnes logisches Dokument enthält. Wenn Sie z. B. Dateipakete mit 20 Seiten importieren, die jeweils 10 Rechnungen von je 2 Seiten enthalten, dann sollten diese nicht als Teil von Auswertungssätzen verwendet werden. Sie können jedoch als Teil von Trainingssätzen verwendet werden, aber nur dann, wenn Sie den Export mithilfe der aktivierten Abwärtskompatibilität durchführen.

Verbesserungen

Exportieren der Schemaunterstützung mithilfe des Optionsfelds im Dialogfeld Dateien exportieren.

Die maximale Importgröße wurde auf 2 GB oder 2000 Seiten erhöht.

Der Testsatz wurde für die Konsistenz mit den AI Center-Auswertungspipelines in Auswertungssatz umbenannt.

Die Schaltfläche Vorhersage wird standardmäßig in der Verwaltungsleiste angezeigt, aber die Einstellungen zum Vorbeschriften müssen konfiguriert werden, damit die Schaltfläche aktiviert ist.

Alle Einschränkungen für die Anzahl der Proben pro Feld wurden aus den Exporten von Auswertungssätzen entfernt.

In der Verwaltungsleiste wurde der Data Manager-Sitzungsname neben dem Dateinamen hinzugefügt, um die Sitzung, an der Sie arbeiten, einfacher zu identifizieren, falls mehrere Data Manager-Registerkarten gleichzeitig geöffnet sind.

Dokumente in chinesischer Sprache werden unterstützt.

Verbesserungen der Barrierefreiheit.

Lokalisierung für Portugiesisch – Portugal, Russisch und Türkisch.

Bekannte Probleme (Known Issues)

  • Das Modell InvoicesChina formatiert chinesische Datumsangaben nicht in das Standardformat yyyy-mm-dd. Das wird in zukünftigen Releases verbessert.
  • Die Data Manager-Analysen der Datumsangaben stimmen nicht mit denen von ML-Modellen zur Laufzeit überein. Wenn Sie feststellen, dass Daten in Data Manager falsch analysiert werden, werden sie wahrscheinlich zur Laufzeit in der Modellvorhersage korrekt analysiert. Das ist ein bekanntes Problem und wird bald in einem Patch behoben.
  • Mit der Option Vorhersage können Sie mit öffentlichen Endpunkten nur die ersten 10 Seiten eines Dokuments vorbeschriften. Das ist ein bekanntes Problem – eine Verbesserung wird in einem Patch folgen. Die Verwendung der Option Vorhersage mit ML-Fähigkeiten im AI Center erzwingt jedoch keine solche Einschränkung.

Allgemeine Versionshinweise – ML-Pakete

22. Oktober 2021 | V.21.10.9

Freigegeben in der AI Center-Cloud und Endpunkten: 22. Oktober 2021, Paketversion: 21.10.9

Neuigkeiten

Das ML-Paket PurchaseOrders ist jetzt Allgemein verfügbar und kann in Ihren Produktionsszenarien verwendet werden.

Die ML-Pakete InvoicesChina, DeliveryNotes, RemittanceAdvices, W2 und W9 befinden sich jetzt in der Öffentlichen Vorschau. Wir empfehlen Ihnen, diese Pakete zu überprüfen und sie für den Typ von Dokumenten zu verwenden, die Sie verarbeiten müssen.

Verbesserungen

Evaluierung auf Dokumentebene implementiert. Dies ist repräsentativ für die Laufzeitleistung in Ihrem RPA-Workflow.

Die Evaluierung kann auch für Datasets mit weniger Feldern als das evaluierte ML-Paket durchgeführt werden. Das erleichtert die Evaluierung von vorgefertigten vorab trainierten ML-Paketen.

Um die Auswirkungen von OCR auf die Extraktionsgenauigkeit zu bewerten, können Sie sie jetzt erneut in einer Evaluierungspipeline ausführen. Dazu muss OCR beim Erstellen eines ML-Pakets konfiguriert und die Umgebungsvariable eval.redo_ocr in der AI Center-Evaluierungspipeline auf „true“ gesetzt werden.

Das Training mit der CPU verwendet jetzt ein kleineres Modell, um die Geschwindigkeit um das 5- bis 7-Fache zu erhöhen. Sie sollten jedoch mit einer um 0–5 % niedrigeren Genauigkeit bei Verwendung des CPU rechnen.

Die Spalten „Mindestkonfidenz“ und „Direkte Bearbeitungsrate“ wurden zu den Evaluation.xlsx-Dateien hinzugefügt, die von Evaluierungspipelines produziert werden.

Das UtilityBills-ML-Paket wurde erheblich verbessert.

Verbessertes Parsen von Adressen, die 1–2 Textzeilen überspringen.

Verbesserung beim Extrahieren negativer Werte, sehr großer Werte (11 Stellen oder mehr) oder in ferner Zukunft liegender Daten.

Unterstützung für gedrehte Felder auf Belegen wurde hinzugefügt.

Verkettete Abschnitte verbessert.

Fehlerbehebungen

  • Es wurde ein Fehler behoben, bei dem keine Sonderzeichen in String-Feldern zurückgegeben wurden.
  • Es wurde ein Fehler beim Passports-ML-Paket behoben, bei dem das als Ordinalzahl geschriebene Datum (1., 2., 3., 4. usw.) nicht korrekt geparst wurde.

Bekannte Probleme (Known Issues)

Das Retraining der InvoicesJapan- und InvoicesChina-ML-Pakete mit Daten aus der Validierungsstation wird derzeit nicht unterstützt. Verwenden Sie als Problemumgehung Google Cloud Vision OCR.

Bevorstehende Verwerfungen

Alle öffentlichen Endpunkte, mit Ausnahme von UiPathDocumentOCR, FormExtractor, IntelligentFormExtractor und IntelligentKeywordClassifier, werden ab dem 1. Dezember 2021 in Regionen außerhalb von Westeuropa als veraltet eingestuft.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
UiPath Logo weiß
Vertrauen und Sicherheit
© 2005-2024 UiPath. All rights reserved.