- Erste Schritte
- Framework-Komponenten
- Document Understanding im AI Center
- Pipelines
- ML-Pakete
- Data Manager
- OCR-Dienste
- Lizenzierung
- Referenzen
Beschriften von Dokumenten
Die benötigten Volumen der Dokumente finden Sie hier im Abschnitt Pipelines für Training und erneutes Training.
Bei der Auswahl der Dokumente, die für das Training verwendet werden sollen, müssen Sie auch einige Details kennen. Zunächst müssen Sie nutzlose Seiten entfernen, die keine oder nur ein oder zwei Felder von Interesse enthalten. Sie können dies in Data Manager mit der Schaltfläche „Löschen“ tun. Die Seiten gehen nicht verloren: Sie können in der Ansicht „Gelöscht“ jederzeit wiederhergestellt werden.
Wenn Ihr Anwendungsfall dann einen sehr vielseitigen Dokumenttyp umfasst (z. B. Rechnungen oder Belege), benötigen Sie einen sehr vielseitigen Trainingssatz. Das Dataset muss zudem ausgewogener sein: Sie sollten vermeiden, 10 Mal mehr Dokumente von einem Lieferanten als von einem anderen zu haben. Im Allgemeinen reichen 2–3 Dokumente (d. h. etwa 4-6 Seiten bei durchschnittlich 2 Seiten pro Dokument) mit einem bestimmten Layout. Wenn einige von ihnen in Ihrem Workflow sehr häufig vorkommen und Sie sicherstellen möchten, dass sie korrekt extrahiert werden, können Sie 5–7 Beispiele (10–15 Seiten) einschließen.
Wenn es sich bei Ihrem Anwendungsfall jedoch um einen Dokumenttyp mit einem sehr konsistenten Layout handelt (z. B. ein Formular), benötigen Sie mindestens 30 Beispiele davon, da das ML-Modelltraining fehlschlagen kann, wenn der Trainingssatz zu klein ist.
Sie können dieselbe Instanz nur dann gleichzeitig von mehreren Personen beschriften lassen, wenn die folgenden Bedingungen eingehalten werden:
- Zwei Benutzer dürfen nicht gleichzeitig dasselbe Dokument beschriften
- Immer wenn Felder hinzugefügt, entfernt oder deren Konfiguration bearbeitet werden, hat dies von einem Benutzer zu erfolgen, und alle anderen Benutzer sollten ihren Browser sofort aktualisieren, um die Änderungen anzuzeigen. Wenn Sie Änderungen an Feldern vornehmen, während andere Personen beschriften, führt dies zu unerwartetem Verhalten.
Wenn Sie ein Dataset importieren, ohne das Kontrollkästchen „Make this a Testset“ im Dialogfeld „Daten importieren“ zu aktivieren, wird dieses Dataset für das Training verwendet. In diesem Fall müssen Sie sich nur auf die Beschriftung der Wörter (graue Felder) im Dokument konzentrieren. Wenn der Text, der in die Seitenleistenfelder eingegeben wird, ab und zu nicht korrekt ist, ist das kein Problem, da das ML-Modell noch lernt. In einigen Fällen müssen Sie möglicherweise die Konfiguration der Felder anpassen: z. B. durch Aktivieren des Kontrollkästchens „Mehrzeilig“. Im Allgemeinen liegt jedoch der Schwerpunkt auf der Beschriftung der Wörter auf der Seite.
Es gibt viele Situationen, in denen ein Feld an mehreren Stellen im selben Dokument oder sogar auf derselben Seite erscheint. Diese sollten alle beschriftet werden, sofern sie die gleiche Bedeutung haben. Ein Beispiel für viele Betriebskostenabrechnungen ist der Gesamtbetrag. Er steht oft oben, innerhalb einer Liste von Positionen in der Mitte oder in einem Überweisungsschein unten, der abgetrennt und mit dem Scheck per Post versendet werden kann. In dieser Situation würden alle drei Vorkommen beschriftet. Dies ist nützlich, denn wenn ein Feld nicht identifiziert werden kann, weil ein OCR-Fehler vorliegt oder das Layout unterschiedlich ist, kann das Modell in einigen Fällen dennoch die anderen Vorkommen identifizieren.
Es ist wichtig, zu beachten, dass die Bedeutung des Werts zählt, nicht der Wert selbst. Auf einigen Rechnungen, die keine Steuern ausweisen, haben beispielsweise der Nettobetrag und der Gesamtbetrag den gleichen Wert. Aber es handelt sich dabei eindeutig um unterschiedliche Betragsarten. Daher dürfen sie nicht beide als Gesamtsumme gekennzeichnet werden. Nur derjenige, dessen Bedeutung dem Gesamtbetrag entspricht, sollte auch so beschriftet werden.
Wenn Sie ein Dataset importieren und das Kontrollkästchen Make this a Testset im Dialogfeld „Daten importieren“ aktivieren, wird dieses Dataset in AI Fabric nicht von Trainings-, sondern nur von Auswertungspipelines verwendet. Es ist in diesem Fall wichtig, dass der richtige Text in die Felder in der Seitenleiste (oder bei Spaltenfeldern in die obere Leiste) eingegeben wird. Dies zu überprüfen, dauert für jedes Feld viel länger, aber nur so erhalten Sie eine zuverlässige Messung der Genauigkeit des ML-Modells, das Sie erstellen.