communications-mining

latest

false

Wichtig :

Dieser Inhalt wurde maschinell übersetzt.

Communications Mining-Entwicklerhandbuch

Letzte Aktualisierung 26. Nov. 2024

Beheben der Anmerkungsverzerrung durch Communications Mining

Communications Mining verwendet Machine-Learning-Modelle, um Muster in Kommunikationsdaten wie E-Mails, Chats und Anrufe zu identifizieren. Modelle extrahieren diese Muster, um Vorhersagen für ähnliche Daten in der Zukunft zu erstellen und so nachgelagerte Prozesse wie Automatisierungen und Analysen voranzutreiben.

Damit dieser Ansatz funktioniert, müssen die Daten, die zum Trainieren eines Modells verwendet werden, repräsentativ für die Kommunikation sein, für die Vorhersagen getroffen werden. Ist dies nicht der Fall, machen Modelle Fehler, die die Leistung von Systemen, die auf genauen Vorhersagen basieren, schwerwiegend beeinträchtigen können.

Um Benutzern bei der Erstellung robuster, leistungsstarker Modelle zu helfen, haben wir ein Tool entwickelt, das sicherstellt, dass die für das Training verwendeten Daten immer mit der Zielaufgabe des Benutzers übereinstimmen. In diesem Blogbeitrag besprechen wir die Funktionsweise dieses Tools und einige der Probleme, die wir während seiner Entwicklung gelöst haben.

Das Problem der Anmerkungsverzerrung

Was ist die Anmerkungsverzerrung?

Modelle in Communications Mining werden auf vom Benutzer überprüften Daten trainiert. Benutzer erstellen Beschriftungen für Themen, die ihnen wichtig sind, und kommentieren dann Beispiele mit zutreffenden Beschriftungen. Ein Modell wird dann automatisch auf diesen überprüften Daten trainiert, um vorherzusagen, welche Bezeichnungen gelten.

Das Kommentieren von Daten ist schwierig und zeitaufwändig. Communications Mining nutzt aktives Lernen , um den Prozess zu beschleunigen, und hilft Benutzern, die informativsten Datenpunkte so schnell wie möglich zu kommentieren.

Da aktives Lernen bestimmte Datenpunkte auswählt, konzentriert es sich in der Regel nur auf eine Teilmenge der zugrunde liegenden Daten. Darüber hinaus ist das Wechseln zwischen Konzepten mit einem kognitiven Mehraufwand verbunden. Benutzer werden aufgefordert, Gruppen von Beispielen aus ähnlichen Themen gleichzeitig zu kommentieren, anstatt ständig zwischen Themen zu wechseln.

Dies kann dazu führen, dass einige Themen in den überprüften Daten mehr oder weniger häufig vorkommen als im Dataset als Ganzes. Wir nennen dies die Anmerkungsverzerrung, da die von den Benutzern mit Anmerkungen versehenen Daten nicht mehr die zugrunde liegenden Daten darstellen.

Visualisierung von voreingenommenen und unvoreingenommenen Anmerkungen für ein synthetisches 2D-Dataset. Bei unvoreingenommenen Anmerkungen werden Datenpunkte gleichmäßig aus den Originaldaten extrahiert. Bei voreingenommenen Anmerkungen wird die Häufigkeit einiger Beispiele überbewertet, während andere Bereiche vollständig fehlen.

Was sollte Sie interessieren?

Communications Mining verwendet während der Validierung überprüfte Daten, um die Modellleistung zu bewerten. Wenn diese Daten auf bestimmte Themen ausgerichtet sind, können die Validierungsergebnisse irreführend sein.

Denken Sie an ein gemeinsam verwendetes Postfach für eine multinationale Bank, das E-Mails aus ganz EMEA enthält. Die mehrsprachigen Modelle von Communications Mining können Kommunikationsdaten in verschiedenen Sprachen verstehen. Wenn ein Benutzer jedoch E-Mails nur in einer einzigen Sprache beschriften soll, kann das Modell möglicherweise lernen, sich auf Funktionen zu konzentrieren, die spezifisch für diese Sprache sind.

In diesem Fall wären Validierungspunktzahlen gut für dieses Modell, da es bei allen mit Anmerkungen versehenen Beispielen gut funktioniert. Umgekehrt kann die Leistung bei E-Mails in anderen Sprachen schlechter sein. Der Benutzer wäre sich dessen nicht bewusst, da es keine Beispiele gibt, die dies in den überprüften Daten hervorheben. Dies könnte zu Ineffizienzen in allen Prozessen führen, die für genaue Vorhersagen auf das Modell angewiesen sind.

Die Logik hinter der Beschriftungsverzerrung

Für diejenigen, die mehr mathematische Fähigkeiten haben: Communications Mining schätzt P(LabelSDocument). Mit der Bayes-Regel können wir dies aufschlüsseln in:

Jede dieser Komponenten wird während des Trainings aus einigen oder allen Datasets geschätzt.

P(Document∃Label) Modelliert den Dokumentbereich für ein bestimmtes Thema. Das Modell lernt, dies anhand der mit Anmerkungen versehenen Daten zu schätzen, und extrahiert dies mithilfe seiner Sprach- und Weltkenntnisse.
P(Dokument) modelliert die verschiedenen Dokumenttypen im Dataset und ihre relativen Häufigkeiten. Dies ist unabhängig von den Bezeichnungen und kann anhand aller Beispiele geschätzt werden (sowohl überprüft als auch nicht überprüft).
P(Label) Modelliert die Häufigkeit verschiedener Themen. Dies kann nur aus den beschrifteten Daten geschätzt werden, da dies für jeden Anwendungsfall spezifisch ist.

Alle drei Teile sind erforderlich, um P(Label‟Document) zu finden. Sowohl P(Label) als auch P(DocumentMaLabel) sind jedoch stark von den beschrifteten Daten abhängig. Wenn eine Anmerkungsverzerrung vorhanden ist, stimmen diese Schätzungen möglicherweise nicht mit den wahren Verteilungen überein, was zu Ungenauigkeiten in P(LabelSDocument) führt.

Erkennen der Anmerkungsverzerrung

Angesichts der wichtigen Rolle, die überprüfte Daten beim Training und Validieren von Modellen spielen, müssen wir Anmerkungen erkennen und Benutzer warnen, wenn ihre Daten nicht repräsentativ sind.

Auf der einfachsten Ebene ist die Anmerkungsverzerrung eine Diskrepanz zwischen Beispielen, die von Benutzern überprüft wurden, und denen, die nicht überprüft wurden. Stellen Sie sich vor, eine Person wird aufgefordert, in einem Dataset auf Anmerkungsverzerrungen zu überprüfen. Diese Person könnte sich allgemeine Themen ansehen, die in den überprüften Daten auftauchen, und dann überprüfen, wie häufig diese in den nicht überprüften Daten vorkommen.

Wenn die Person eine zuverlässige Regel für die Unterscheidung zwischen diesen beiden Gruppen findet, können wir sicher sein, dass ein Ungleichgewicht vorliegt. Andererseits könnte eine Person in einem Dataset ohne Anmerkungseinstellung nicht genau vorhersagen, ob Beispiele überprüft werden oder nicht. Die Vorhersageleistung dieser Person misst, wie viel Anmerkungsverzerrung im Dataset vorhanden ist.

Wir haben diese Idee als Ausgangspunkt für unser Bias-Modell für Anmerkungen verwendet.

Erstellen eines Bias-Modells für Anmerkungen

Die Vergleichsaufgabe kann mit einem Machine-Learning-Modell automatisiert werden. Dieses Modell unterscheidet sich vom Kernmodell von Communications Mining, das vorhersagt, welche Beschriftungen oder allgemeinen Felder für ein Dokument zutreffen. Stattdessen wird das Modell trainiert, um überprüfte Datenpunkte zu identifizieren.

Die Validierungspunktzahlen für das Modell zeigen, wie einfach das Modell zwischen überprüften und nicht überprüften Beispielen unterscheiden kann und wie stark dementsprechend die Anmerkungsverzerrung im Dataset vorhanden ist.

Klassifizieren überprüfter Beispiele

Ein einfaches Klassifizierermodell, das auf dem synthetischen Dataset trainiert wurde, hat eine durchschnittliche Genauigkeit von über 80 %. Wenn das Dataset unvoreingenommen wäre, würden wir erwarten, dass das Modell nicht besser abschneidet als durch einen zufälligen Zufall, was der Verzerrung entspricht, die wir in den überprüften Daten sehen können.

Entscheidungsgrenze für das Anmerkungs-Bias-Modell, das auf dem synthetischen Dataset trainiert wurde. Das Modell lernt eine Entscheidungsgrenze, die es ermöglicht, am besten zwischen überprüften und nicht überprüften Beispielen zu unterscheiden.

Ähnliche naive Klassifizierermodelle, die auf echten Datasets trainiert wurden, konnten auch überprüfte Beispiele zuverlässig erkennen. Dies deutet darauf hin, dass in diesen Datasets eine Anmerkungsverzerrung vorhanden war, aber die genaue Quelle war unbekannt.

Beim synthetischen Dataset ist es leicht, die Auswirkung der Anmerkungsverzerrung auf die dargestellten Daten zu erkennen. Bei einem echten Dataset, bei dem die Daten in mehr als zwei Dimensionen liegen und Muster oft viel komplexer sind, ist dies nicht der Fall.

Stattdessen können wir in Beispielen nach Mustern suchen, bei denen das Modell sicher ist, dass sie nicht überprüft wurden. Dieser Ansatz zeigte, dass E-Mails, die sicher als nicht überprüft vorhergesagt wurden, häufig Anhänge ohne Text enthielten. Wo diese E-Mails in den Daten vorhanden waren, wurden sie in den überprüften Beispielen in der Regel unterrepräsentiert.

Dies stellt eine eindeutige Bevorzugung der Anmerkungen dar und zeigt, dass ein Klassifizierermodell vielversprechend ist.

Ein Beispiel für eine Banking-E-Mail, die vom Bias-Klassifizierer ausgewählt wurde. Die E-Mail enthält nur den Dateinamen eines Anhangs. E-Mails dieses Typs wurden in den überprüften Beispielen oft unterrepräsentiert.

Erkennen einer bedeutungsvollen Verzerrung

Das Anmerkungs-Bias-Modell ist darauf trainiert, zwischen überprüften und nicht überprüften Daten zu unterscheiden. In dieser Einstellung versucht das Modell, den Benutzer zu erkennen, indem Muster in seinen mit Anmerkungen versehenen Daten identifiziert werden. Dieser kontraproduktive Ansatz ist eine effektive Methode, um die überprüften Daten zu überprüfen, wirft aber auch zwei interessante Probleme auf.

Triviale Unterschiede

Unterschiede in überprüften und nicht überprüften Daten, die vom Modell erfasst werden, sollten für die Benutzer von Bedeutung sein. Als wir jedoch das naive Bias-Modell mit detaillierten Eingaben bereitgestellt haben, stellten wir fest, dass sich das Modell manchmal auf unbedeutende Muster konzentrierte.

Beispielsweise wurde in einem Dataset-Anhang, der E-Mails enthält, die .jpg -Dateien mit GOCR im Namen enthalten, zuversichtlich als nicht überprüft vorhergesagt. Es gab keine solchen Beispiele im überprüften Satz, aber 160 im nicht überprüften Satz, was eine kleine Verzerrung bei den Anmerkungen darstellt.

Diese Kombination von Funktionen war für den Benutzer nicht wichtig. Keine nachgelagerten Prozesse waren vom Vorhandensein von GOCR in Dateinamen abhängig, und diese Beispiele waren nur eine Teilmenge der E-Mails, die nur Anhänge waren, im Dataset. Tatsächlich hatten alle diese E-Mails sichere, korrekte Vorhersagen für die Auto-Generated -Beschriftung des Datasets, was bedeutet, dass diese Funktionen auch keine Bedeutung für das Anmerkungsmodell von Communications Mining hatten. Das Bias-Modell verwendete diese Funktionen jedoch, um Vorhersagen zu treffen.

Benutzer sollten nicht alle Kombinationen von bedeutungslosen Funktionen beschriften müssen, um eine gute Bias-Punktzahl für Anmerkungen zu erhalten. Für fast alle Konzepte benötigen wir nicht Tausende von Beispielen, um die verschiedenen möglichen Datenpunkte vollständig zu erfassen. Stattdessen sollte sich das Anmerkungs-Bias-Modell nur auf Unterschiede konzentrieren, die sich tatsächlich auf Anmerkungsvorhersagen auswirken.

Unwichtige Themen

Datasets können Datenpunkte enthalten, die von Benutzern nie mit Anmerkungen versehen werden, da sie für die Zielaufgabe irrelevant sind.

Zurück zu unserem multinationalen Banking-Beispiel: Teams könnten Communications Mining nutzen, um landspezifische Anwendungsfälle voranzutreiben. Jedes Team erstellte ein Modell, das auf seine Zielaufgabe zugeschnitten war, wobei alle Modelle E-Mails aus dem freigegebenen Postfach verwendeten.

Diese Anwendungsfälle unterscheiden sich wahrscheinlich zwischen den Teams. Europäische Länder möchten möglicherweise die Auswirkungen des EU-Austritts auf ihre Betriebe nachverfolgen und würden zu diesem Zweck eine Reihe von Labels erstellen. Andererseits haben Teams im Mittleren Bedarfsraum und in Afrika möglicherweise keine Verwendung für E-Mails im Zusammenhang mit dem Word-Beitrag und würden sie in ihrem Modell ignorieren.

Das Nicht-Kommentieren von E-Mails im Zusammenhang mit dem Word-Beitrag ist ein Beispiel für eine Voreingenommenheit beim Kommentieren. Dies ist jedoch eine Voreingenommenheit, die für Benutzer im Nahen Knoten und in Afrika unwichtig ist. Das Voreingenommenheitsmodell sollte dies berücksichtigen und nur in E-Mails, die das Team für nützlich hält, nach Voreingenommenheit für Anmerkungen suchen.

Verwenden von Beschriftungen als Signal

Wir müssen es dem Beschrifter erschweren, sich auf kleine Funktionen zu konzentrieren, aber leiten Sie dies davon ab, was der Benutzer als nützlich definiert. Dazu können wir die Eingaben ändern, die wir an unser Bias-Modell für Anmerkungen übergeben.

Modelleingänge

Hinweis: Modelleingänge. Unser Kern-Anmerkungsmodell funktioniert nicht direkt mit Text. Stattdessen verwenden wir ein Sprachmodell, um Kommunikationsdaten in Modelleingaben zu konvertieren (bekannt als Einbetten). Diese Eingaben enthalten die nützlichen Informationen, die in den Daten vorhanden sind, jedoch in einer Form, die das Modell interpretieren kann.

Die Eingaben in unser Core-Anmerkungsmodell enthalten eine große Menge an Informationen aus dem Eingabetext. Dadurch kann das Modell komplexe Beziehungen lernen, die sich auf Beschriftungsvorhersagen auswirken. Beim Bias-Modell für Anmerkungen kann sich das Modell dadurch jedoch auch auf kleine, bedeutungslose Unterschiede bei Funktionen wie Dateinamen konzentrieren.

Die Dimensionalitätsreduzierung ist eine Möglichkeit, Informationen herauszufiltern und gleichzeitig aussagekräftige Eigenschaften der ursprünglichen Eingaben beizubehalten. Die Verwendung reduzierter Eingaben verhindert, dass sich das Bias-Modell auf kleine Funktionen konzentriert und gleichzeitig wichtige Informationen in einem Dataset beibehält.

Benutzer erstellen nur Beschriftungen für Themen, die sie nachverfolgen möchten. Das Einbeziehen von Beschriftungen während der Verringerung der Dimensionalität bedeutet also, dass wir die wichtigsten Eingabefunktionen beibehalten. Mit diesem Ansatz konzentriert sich unser Modell zur Anmerkungsverzerrung nicht mehr auf kleinen Funktionen und berücksichtigt bei der Schätzung der Verzerrung auch Beschriftungen.

Die Verringerung der Dimensionalität wird verwendet, um die Größe der Eingaben in das Bias-Modell zu reduzieren und gleichzeitig nützliche Funktionen beizubehalten

Anmerkungsfehler in Communications Mining

Wir verwenden unser Anmerkungs-Bias-Modell für zwei Hauptaufgaben in Communications Mining.

Balance-Punktzahlen

Das Erkennen und Beheben von Anmerkungsverzerrungen ist für zuverlässige Modellvalidierungsergebnisse von entscheidender Bedeutung. Aus diesem Grund zeigen wir die Leistung des Modells der Anmerkungsverzerrung in der Modellbewertung an.

Dies geschieht in Form eines Ähnlichkeitsmaßes zwischen den überprüften und nicht überprüften Daten. Ein niedriger Ähnlichkeitswert weist auf einen großen Unterschied zwischen überprüften und nicht überprüften Daten hin, was auf die Anmerkungsverzerrung im Dataset hinweist.

Der Ausgewogenheitsfaktor in der Modellbewertung gibt eine Punktzahl basierend auf der Ähnlichkeit zwischen überprüften und nicht überprüften Daten an

Neuausgleich

Der beste Weg, um einen unvoreingenommenen Satz überprüfter Daten zu erstellen, besteht darin, eine zufällige Auswahl von Beispielen zu kommentieren. Auf diese Weise stimmen die überprüften Beschriftungen immer mit der zugrunde liegenden Verteilung überein. Eine Anmerkung auf diese Weise ist jedoch ineffizient, insbesondere bei seltenen Konzepten.

Stattdessen nutzt Communications Mining aktives Lernen, um den Anmerkungsprozess zu beschleunigen, indem auf die nützlichsten Beispiele abgezielt wird. Diese gezielten Beispiele stimmen nicht immer mit der zugrunde liegenden Datenverteilung überein, was bedeutet, dass sich im Laufe der Zeit schrittweise Verzerrungen bei der Anmerkung entwickeln können.

Es kann nicht garantiert werden, dass aktives Lernen zu einer unvoreingenommenen Reihe von überprüften Beispielen führt. Wenn jedoch eine Anmerkungsverzerrung erkannt wird, können wir das Anmerkungsverzerrungsmodell verwenden, um Unausgewogenheit zu beheben. Auf diese Weise profitieren wir von der reduzierten Trainingszeit des aktiven Lernens und der geringen Anmerkungsverzerrung der Zufallsauswahl.

Dies ist die Grundlage für unsere Ansicht Rebalance , die Datenpunkte zeigt, von denen das Bias-Modell sicher ist, dass sie nicht überprüft und daher im Dataset unterrepräsentiert werden. Das Hinzufügen von Anmerkungen zu diesen Beispielen bietet eine schnelle Möglichkeit, Anmerkungsverzerrungen in einem Dataset zu beheben.

Ausgewogenes aktives Lernen

Um zu zeigen, wie die Neuausgleich die Leistung von Communications Mining verbessert, haben wir Benutzer simuliert, die Beispiele nach drei aktiven Lernstrategien kommentieren.

Zufällig. Kommentieren Sie eine zufällige Auswahl der nicht überprüften Beispiele.
Standard. Kommentieren Sie Beispiele, bei denen Communications Mining am unsichersten ist, oder diejenigen mit der höchsten Vorhersageenropie. Dies ist ein gängiger Ansatz für aktives Lernen und entspricht der ausschließlichen Verwendung der Teach -Ansicht in Communications Mining.
Communications Mining. Folgen Sie der aktiven Lernstrategie von Communications Mining, die die wichtigsten Trainingsaktionen zur Verbesserung des aktuellen Modells vorschlägt. Dies schließt die Ansicht Rebalance ein.

Wir haben diese Simulationen mit dem von NLTK bereitgestellten Open-Source-Reuters-Dataset durchgeführt, das Nachrichtenartikel enthält, die mit einem oder mehreren von 90 Labels gekennzeichnet sind. Für jede Ausführung wurde der gleiche zufällig ausgewählte Satz von 100 Beispielen verwendet. Für jeden Simulationsschritt modellieren wir Benutzer, die 50 Beispiele kommentieren, die von der aktiven Lernstrategie ausgewählt wurden. Communications Mining wird dann erneut trainiert und der Prozess wird wiederholt.

Das folgende Diagramm zeigt die Leistung des Anmerkungsmodells von Communications Mining bei der Reuters-Aufgabe, während weitere Beispiele mit Anmerkungen versehen sind. Es wird auch die Ausgewogenheitspunktzahl angezeigt, die das Ausmaß der Anmerkungsverzerrung darstellt, die im Dataset vorhanden ist.

Ausgewogene Punktzahl und mittlere durchschnittliche Präzision für verschiedene aktive Lernstrategien, die auf dem Reuters-Dataset trainiert wurden. docs image

Nach der Standardstrategie für aktives Lernen erhalten wir eine ähnliche mittlere durchschnittliche Genauigkeit wie Communications Mining, wobei die zufällige Stichprobe die niedrigste von den drei Strategien erzielt. Standardmäßiges aktives Lernen führt jedoch auch zu einer erheblichen Verzerrung der Anmerkungen, was bedeutet, dass die Validierungsergebnisse für diesen Ansatz irreführend sein können.

Die aktive Lernstrategie von Communications Mining führt zu ähnlichen Ausgewogenheitswerten wie bei der Zufallsauswahl, erfordert jedoch weniger Beispiele, um die gleiche Modellleistung zu erzielen. Das bedeutet, dass aktives Lernen mit Reausgleich das Beste von sowohl standardmäßigem aktivem Lernen als auch von zufälliger Stichprobe bietet: unvoreingenommene überprüfte Beispiele und gute Modellleistung in kürzerer Zeit.

Zusammenfassung

Um genaue Modellvalidierungsergebnisse zu erhalten, müssen Daten mit Anmerkungen repräsentativ für das Dataset als Ganzes sein.
Das Anmerkungs-Bias-Modell von Communications Mining vergleicht überprüfte und nicht überprüfte Daten, um Themen zu identifizieren, die im Dataset unterrepräsentiert sind.
Die Rebalance -Ansicht kann verwendet werden, um die Anmerkungsverzerrung in einem Dataset schnell zu beheben.
Das aktive Lernen von Communications Mining führt zu einer geringeren Verzerrung der Anmerkung als Standardansätze und zu einer besseren Leistung als allein durch Zufallsauswahl.

Auf dieser Seite