Document Understanding – Beschriften von Dokumenten

document-understanding

2020.10

false

Document Understanding-Benutzerhandbuch.

Wichtig :

Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

Beschriften von Dokumenten

Datenvorbereitung

Die benötigten Volumen der Dokumente finden Sie hier im Abschnitt Pipelines für Training und erneutes Training.

Bei der Auswahl der Dokumente, die für das Training verwendet werden sollen, müssen Sie auch einige Details kennen. Zunächst müssen Sie nutzlose Seiten entfernen, die keine oder nur ein oder zwei Felder von Interesse enthalten. Sie können dies in Data Manager mit der Schaltfläche „Löschen“ tun. Die Seiten gehen nicht verloren: Sie können in der Ansicht „Gelöscht“ jederzeit wiederhergestellt werden.

Wenn Ihr Anwendungsfall dann einen sehr vielseitigen Dokumenttyp umfasst (z. B. Rechnungen oder Belege), benötigen Sie einen sehr vielseitigen Trainingssatz. Das Dataset muss zudem ausgewogener sein: Sie sollten vermeiden, 10 Mal mehr Dokumente von einem Lieferanten als von einem anderen zu haben. Im Allgemeinen reichen 2–3 Dokumente (d. h. etwa 4-6 Seiten bei durchschnittlich 2 Seiten pro Dokument) mit einem bestimmten Layout. Wenn einige von ihnen in Ihrem Workflow sehr häufig vorkommen und Sie sicherstellen möchten, dass sie korrekt extrahiert werden, können Sie 5–7 Beispiele (10–15 Seiten) einschließen.

Wenn es sich bei Ihrem Anwendungsfall jedoch um einen Dokumenttyp mit einem sehr konsistenten Layout handelt (z. B. ein Formular), benötigen Sie mindestens 30 Beispiele davon, da das ML-Modelltraining fehlschlagen kann, wenn der Trainingssatz zu klein ist.

Parallele Beschriftungen durch mehrere Benutzer

Sie können dieselbe Instanz nur dann gleichzeitig von mehreren Personen beschriften lassen, wenn die folgenden Bedingungen eingehalten werden:

Zwei Benutzer dürfen nicht gleichzeitig dasselbe Dokument beschriften
Immer wenn Felder hinzugefügt, entfernt oder deren Konfiguration bearbeitet werden, hat dies von einem Benutzer zu erfolgen, und alle anderen Benutzer sollten ihren Browser sofort aktualisieren, um die Änderungen anzuzeigen. Wenn Sie Änderungen an Feldern vornehmen, während andere Personen beschriften, führt dies zu unerwartetem Verhalten.

Beschriftungen für Training

Wenn Sie ein Dataset importieren, ohne das Kontrollkästchen „Make this a Testset“ im Dialogfeld „Daten importieren“ zu aktivieren, wird dieses Dataset für das Training verwendet. In diesem Fall müssen Sie sich nur auf die Beschriftung der Wörter (graue Felder) im Dokument konzentrieren. Wenn der Text, der in die Seitenleistenfelder eingegeben wird, ab und zu nicht korrekt ist, ist das kein Problem, da das ML-Modell noch lernt. In einigen Fällen müssen Sie möglicherweise die Konfiguration der Felder anpassen: z. B. durch Aktivieren des Kontrollkästchens „Mehrzeilig“. Im Allgemeinen liegt jedoch der Schwerpunkt auf der Beschriftung der Wörter auf der Seite.

Felder, die mehrmals im selben Dokument vorkommen

Es gibt viele Situationen, in denen ein Feld an mehreren Stellen im selben Dokument oder sogar auf derselben Seite erscheint. Diese sollten alle beschriftet werden, sofern sie die gleiche Bedeutung haben. Ein Beispiel für viele Betriebskostenabrechnungen ist der Gesamtbetrag. Er steht oft oben, innerhalb einer Liste von Positionen in der Mitte oder in einem Überweisungsschein unten, der abgetrennt und mit dem Scheck per Post versendet werden kann. In dieser Situation würden alle drei Vorkommen beschriftet. Dies ist nützlich, denn wenn ein Feld nicht identifiziert werden kann, weil ein OCR-Fehler vorliegt oder das Layout unterschiedlich ist, kann das Modell in einigen Fällen dennoch die anderen Vorkommen identifizieren.

Es ist wichtig, zu beachten, dass die Bedeutung des Werts zählt, nicht der Wert selbst. Auf einigen Rechnungen, die keine Steuern ausweisen, haben beispielsweise der Nettobetrag und der Gesamtbetrag den gleichen Wert. Aber es handelt sich dabei eindeutig um unterschiedliche Betragsarten. Daher dürfen sie nicht beide als Gesamtsumme gekennzeichnet werden. Nur derjenige, dessen Bedeutung dem Gesamtbetrag entspricht, sollte auch so beschriftet werden.

Beschriftungen für Tests

Wenn Sie ein Dataset importieren und das Kontrollkästchen Make this a Testset im Dialogfeld „Daten importieren“ aktivieren, wird dieses Dataset in AI Fabric nicht von Trainings-, sondern nur von Auswertungspipelines verwendet. Es ist in diesem Fall wichtig, dass der richtige Text in die Felder in der Seitenleiste (oder bei Spaltenfeldern in die obere Leiste) eingegeben wird. Dies zu überprüfen, dauert für jedes Feld viel länger, aber nur so erhalten Sie eine zuverlässige Messung der Genauigkeit des ML-Modells, das Sie erstellen.

Beschriften von Aktionen

Nachfolgend sehen Sie die wichtigsten Aktionen, die Sie beim Beschriften von Dokumenten ausführen müssen. Ein bestimmtes Feld kann an mehreren Stellen auf derselben Seite beschriftet werden.

Feld beschriften
- Wählen Sie Wörter aus, indem Sie die Maus ziehen (Gummibandtechnik) oder darauf klicken und die Umschalttaste gedrückt halten, um mehrere Wörter auszuwählen.
- Benutzen Sie die Tastenkombination, um das Feld zu beschriften
Beschriftung entfernen
- Wählen Sie Wörter aus, tippen Sie dann auf die Entf- oder Backspace-Taste auf Ihrer Tastatur.
Tabellenzeile gruppieren
- Nachdem Sie einige Spaltenfelder beschriftet haben und vorausgesetzt, dass sich einige Zeilen über mehrere Textzeilen erstrecken, können Sie sie zusammengruppieren, indem Sie die Taste „/“ verwenden, um anzuzeigen, dass sie Teil derselben Tabellenzeile sind. Um die Gruppe wird ein grünes Feld angezeigt.
Gruppierung einer Tabellenzeile aufheben
- Wählen Sie die Gruppe aus und tippen Sie erneut auf "/"
Korrektur an der OCR vornehmen
- Klicken Sie mit der rechten Maustaste auf das Wort, und bearbeiten Sie den Text in der angezeigten QuickInfo. Dies wird nur selten empfohlen, da die OCR diese Fehler in der Produktion immer noch machen wird. Daher ist es in der Regel am besten, einfach zu überspringen und fortzufahren.
Korrektur an beschriftetem Wert vornehmen
- Klicken Sie auf den Text in der Seitenleiste oder in der oberen Leiste und bearbeiten Sie den Inhalt. Ein kleines Schloss erscheint, das anzeigt, dass das Feld manuell bearbeitet wurde. Dies ist beim Beschriften von Testsätzen erforderlich.
Beschrifteten Wert auf den automatisch extrahierten Wert zurücksetzen
- Klicken Sie auf das Schloss, und das Feld wird auf seinen automatisch extrahierten Wert zurückgesetzt.

Auf dieser Seite

Datenvorbereitung
Parallele Beschriftungen durch mehrere Benutzer
Beschriftungen für Training
Felder, die mehrmals im selben Dokument vorkommen
Beschriftungen für Tests
Beschriften von Aktionen

War diese Seite hilfreich?

Vorherige (previous)Importieren von Dokumenten

WeiterExportieren von Dokumenten