- Überblick
- Document Understanding-Prozess
- Schnellstart-Tutorials
- Framework-Komponenten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Intelligenter Schlüsselwortklassifizierer
- FlexiCapture Classifier
- Machine Learning Classifier
- Dokumentklassifizierung – verwandte Aktivitäten
- Datenverbrauch
- ML-Pakete
- Pipelines
- Dokumentmanager
- OCR-Dienste
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Deep Learning
- Lizenzierung
- Referenzen
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
Beschriften von Dokumenten
Die erforderlichen Mengen an Dokumenten finden Sie unter Pipelines.
Weitere Informationen zum Zusammenstellen eines hochwertigen Datasets finden Sie unter Training von leistungsstarken Modellen.
Es gibt viele Situationen, in denen ein Feld an mehreren Stellen im selben Dokument oder sogar auf derselben Seite erscheint. Diese sollten alle beschriftet werden, sofern sie die gleiche Bedeutung haben.
Zum Beispiel der Gesamtbetrag für Betriebskostenabrechnungen. Er steht oft oben, innerhalb einer Liste von Positionen in der Mitte oder in einem Überweisungsschein unten, der abgetrennt werden kann. In dieser Situation würden alle drei Vorkommen beschriftet. Dies ist nützlich, da das Modell in einigen Fällen, wenn ein OCR-Fehler vorliegt oder das Layout unterschiedlich ist und ein Feld nicht identifiziert werden kann, die anderen Vorkommen identifizieren kann.
Sie können mehrere Benutzer die gleiche Instanz gleichzeitig beschriften lassen, auch für dasselbe Dokument.
Wenn gleichzeitige Änderungen am Schema vorgenommen werden, wird die Änderung des einen Benutzers übernommen und anderen eine Warnmeldung angezeigt, die besagt, dass die Änderungen nicht durchgeführt werden konnten. Die anderen Benutzer sollten ihren Browser sofort aktualisieren, um die Änderungen anzuzeigen.
Wenn Sie ein Dataset importieren, ohne das Kontrollkästchen Zu einem Auswertungssatz machen im Dialogfeld „Daten importieren“ zu aktivieren, wird dieses Dataset für das Training verwendet und Sie müssen sich nur auf die Beschriftung der Wörter (graue Felder) im Dokument konzentrieren.
Wenn der Text, der in die Seitenleistenfelder eingegeben wird, ab und zu nicht korrekt ist, ist das kein Problem, da das ML-Modell noch in der Lernphase ist. In einigen Fällen müssen Sie möglicherweise die Konfiguration der Felder anpassen: z. B. durch Aktivieren des Kontrollkästchens Mehrzeilig. Im Allgemeinen liegt jedoch der Schwerpunkt auf der Beschriftung der Wörter auf der Seite.
Wenn Sie ein Dataset importieren und das Kontrollkästchen Zu einem Auswertungssatz machen im Dialogfeld „Daten importieren“ aktivieren, wird dieses Dataset von Trainingspipelines im AI Center ignoriert und nur von Auswertungspipelines verwendet.
Es ist wichtig, dass der richtige Text in die Felder in der Seitenleiste (oder in die obere Leiste für Spaltenfelder) eingegeben wird. Dies zu überprüfen, dauert für jedes Feld viel länger, aber nur so erhalten Sie eine zuverlässige Messung der Genauigkeit des ML-Modells, das Sie erstellen.
Ab Version 2021.10 unterstützt der Document Manager die Beschriftung von mehrseitigen Dokumenten. Folglich haben Felder in der Seitenleiste einen einzigen Wert für das gesamte Dokument. Dies spiegelt das Verhalten zur Runtime im RPA-Workflow genau wider und ermöglicht es Auswertungspipelines im AI Center, realistische Ergebnisse zu generieren, die die tatsächliche Laufzeitleistung der ML-Modelle widerspiegeln.
Beachten Sie jedoch, dass dies eine größere Änderung gegenüber früheren Releases ist, in denen jede Seite separat beschriftet wurde. Das Beschriften und Exportieren von mehrseitigen Dokumenten geht davon aus, dass jedes Dokument ein einzelnes logisches Dokument darstellt. Beispielsweise kann ein sechsseitiges Dokument eine einzelne sechsseitiges Rechnung enthalten, darf aber keine drei verschiedenen Rechnungen à zwei Seiten enthalten. Dies ist insbesondere für Auswertungssätze wichtig.
Nachfolgend sehen Sie die wichtigsten Aktionen, die Sie beim Beschriften von Dokumenten ausführen müssen. Ein bestimmtes Feld kann an mehreren Stellen auf derselben Seite beschriftet werden.
Wählen Sie ein einzelnes Textfeld aus, indem Sie darauf klicken.
Um mehrere Wörter auszuwählen, klicken Sie auf das erste Wort, halten Sie Strg/Umschalt gedrückt und klicken Sie dann auf die restlichen der gewünschten Wörter oder wählen Sie einen gesamten Bereich aus, indem Sie die Maus darüber ziehen.
Ctrl
/Shift
gedrückt und klicken Sie auf die zu deaktivierenden Textfelder oder ziehen Sie die Maus darüber.
Wenn Ihre Auswahl stimmt, nutzen Sie die Tastenkombination, um das Feld zu beschriften.
Vergewissern Sie sich, dass die Mehrwertoption des Feldes ausgewählt ist.
Wählen Sie den ersten Satz von Informationen aus und tippen Sie auf die Tastenkombination, um das Feld zu beschriften.
Wiederholen Sie die obigen Schritte, bis alle Werte für das Mehrwertfeld beschriftet sind.
- Felder mit mehreren Werten können nur mit Machine Learning-Paketen mit Version 2022.10 oder höher verwendet werden.
- Ein Feld mit mehreren Werten zeigt zwei Werte im komprimierten Zustand und alle Werte im erweiterten Zustand an. Klicken Sie auf den Pfeil zum Erweitern des Mehrwertfeldes, um die Liste aller beschrifteten Werte zu erweitern und zu visualisieren.
Wählen Sie Wörter aus und drücken Sie dann die Taste „Entf“ bzw. die Rücktaste auf Ihrer Tastatur.
/
drücken, um anzuzeigen, dass sie Teil derselben Tabellenzeile sind. Um die Gruppe wird ein grünes Feld angezeigt.
Wenn ein beschriftetes Spaltenfeld gruppiert wird, wird die Tabelle analysiert und oben angezeigt, wobei die extrahierten Daten hervorgehoben werden.
/
erneut.
Klicken Sie auf den Text in der Seitenleiste oder in der oberen Leiste und bearbeiten Sie den Inhalt. Ein kleines Schloss erscheint, das anzeigt, dass das Feld manuell bearbeitet wurde. Dies ist beim Beschriften von Auswertungssätzen erforderlich.
Klicken Sie auf das Schloss, und das Feld wird auf seinen automatisch extrahierten Wert zurückgesetzt.
Beschriftung auswählen
Verwenden Sie die linke oder rechte Maustaste, um ein Feld auszuwählen oder weitere Informationen darüber zu erhalten.
- Linksklick – Wählt das Feld aus
- Rechtsklick – Wählt das Feld aus und zeigt Informationen über den OCR-Text und die aktuelle Beschriftung an.
Dokumentnavigation
- Alt + Pfeil links/Pfeil rechts – Navigiert zwischen Dokumenten.
Dokumentskalierung
- Ctrl + Bildlauf – Ändert die Skalierung des Dokuments durch Vergrößern oder Verkleinern.
Löschen oder Wiederherstellen eines Dokuments
- Alt + Entf – Löscht ein Dokument.
- Alt + Entf – Stellt ein gelöschtes Dokument wieder her.
- Felder, die mehrmals im selben Dokument vorkommen
- Parallele Beschriftungen durch mehrere Benutzer
- Beschriftungen für Training
- Beschriftungen für Auswertung
- Beschriften von Aktionen
- Ein Feld beschriften
- Beschriften eines mehrwertigen Felds
- Eine Beschriftung entfernen
- Eine Tabellenzeile gruppieren
- Die Gruppierung einer Tabellenzeile aufheben
- Korrekturen am beschrifteten Wert vornehmen
- Beschrifteten Wert auf den automatisch extrahierten Wert zurücksetzen
- Andere Optionen