- Einleitung
- Einrichten Ihres Kontos
- Ausgewogenheit
- Cluster
- Konzeptabweichung
- Abdeckung
- Datasets
- Allgemeine Felder
- Beschriftungen (Vorhersagen, Konfidenzniveaus, Beschriftungshierarchie und Beschriftungsstimmung)
- Modelle
- Streams
- Modellbewertung
- Projekte
- Präzision
- Rückruf
- Nachrichten mit und ohne Anmerkungen
- Extraktionsfelder
- Quellen
- Taxonomien
- Training
- „True“ und „false“ positive und negative Vorhersagen
- Validierung
- Messages
- Zugriffssteuerung und Administration
- Verwalten Sie Quellen und Datasets
- Verstehen der Datenstruktur und -berechtigungen
- Erstellen oder Löschen einer Datenquelle in der GUI
- Hochladen einer CSV-Datei in eine Quelle
- Vorbereiten von Daten für den CSV-Upload
- Ein Dataset wird erstellt
- Mehrsprachige Quellen und Datasets
- Aktivieren der Stimmung für ein Dataset
- Ändern der Dataset-Einstellungen
- Löschen einer Nachricht
- Löschen eines Datasets
- Exportieren eines Datasets
- Verwenden von Exchange-Integrationen
- Modelltraining und -wartung
- Grundlegendes zu Beschriftungen, allgemeinen Feldern und Metadaten
- Beschriftungshierarchie und Best Practices
- Vergleichen von Anwendungsfällen für Analyse und Automatisierung
- Konvertieren Ihrer Ziele in Bezeichnungen
- Übersicht über den Modelltrainingsprozess
- Generative Anmerkung
- Der Status des Datasets
- Best Practice für Modelltraining und Anmerkungen
- Training mit aktivierter Beschriftungs-Stimmungsanalyse
- Grundlegendes zu Datenanforderungen
- Trainieren
- Einführung in Verfeinerung
- Erläuterungen zu Präzision und Rückruf
- Präzision und Rückruf
- So funktioniert die Validierung
- Verstehen und Verbessern der Modellleistung
- Gründe für die geringe durchschnittliche Beschriftungsgenauigkeit
- Training mit Beschriftung „Überprüfen“ und Beschriftung „Verpasst“.
- Training mit der Bezeichnung „Teach“ (Verfeinern)
- Training mit der Suche (verfeinern)
- Verstehen und Erhöhen der Abdeckung
- Verbesserung des Abgleichs und Verwendung des Abgleichs
- Wann das Training Ihres Modells beendet werden soll
- Verwenden von allgemeinen Feldern
- Generative Extraktion
- Verwenden von Analyse und Überwachung
- Automations and Communications Mining™
- Entwickler (Developer)
- Verwenden der API
- API-Tutorial
- Quellen
- Datasets
- Anmerkungen
- Anhänge (Attachments)
- Vorhersagen
- Erstellen Sie einen Stream
- Aktualisieren Sie einen Stream
- Rufen Sie einen Stream nach Namen ab
- Rufen Sie alle Streams ab
- Löschen Sie einen Stream
- Ergebnisse aus Stream abrufen
- Kommentare aus einem Stream abrufen (Legacy)
- Bringen Sie einen Stream vor
- Einen Stream zurücksetzen
- Kennzeichnen Sie eine Ausnahme
- Entfernen Sie das Tag einer Ausnahme
- Prüfungsereignisse
- Alle Benutzer abrufen
- Hochladen von Daten
- Herunterladen von Daten
- Exchange Integration mit einem Azure-Dienstbenutzer
- Exchange-Integration mit der Azure-Anwendungsauthentifizierung
- Exchange-Integration mit Azure Application Authentication und Graph
- Abrufen von Daten für Tableau mit Python
- Elasticsearch-Integration
- Allgemeine Feldextraktion
- Selbst gehostete Exchange-Integration
- UiPath® Automatisierungs-Framework
- Offizielle UiPath®-Aktivitäten
- Wie Maschinen lernen, Wörter zu verstehen: eine Anleitung zu Einbettungen in NLP
- Eingabeaufforderungsbasiertes Lernen mit Transformers
- Ef Robots II: Wissensdegesterration und Feinabstimmung
- Effiziente Transformer I: Warnmechanismen
- Tief hierarchische, nicht überwachte Absichtsmodellierung: Nutzen ohne Trainingsdaten
- Beheben von Anmerkungsverzerrungen mit Communications Mining™
- Aktives Lernen: Bessere ML-Modelle in weniger Zeit
- Auf Zahlen kommt es an – Bewertung der Modellleistung mit Metriken
- Darum ist Modellvalidierung wichtig
- Vergleich von Communications Mining™ und Google AutoML für Conversation Data Intelligence
- Lizenzierung
- Häufige Fragen und mehr

Communications Mining-Benutzerhandbuch
Wenn es darum geht, die Leistungsfähigkeit von NLP und ML zu nutzen, um Prozesse zu automatisieren, bessere Analysen zu erhalten und ein tieferes Verständnis für die Konversationen eines Unternehmens zu gewinnen, ist die erste Entscheidung in der Regel, ob Sie eine Lösung kaufen oder Ihre eigene entwickeln möchten.
In diesem Beitrag werden die Leistung und Designidee der Communications Mining -Plattform mit einer der leistungsstärksten Cloud-NLP-Lösungen verglichen, der AutoML von Google.
Wir hoffen, Ihnen einige Einblicke in die Verwendung eines dedizierten Enterprise Communications Intelligence-Produkts im Vergleich zur Verwendung eines allgemeineren Tools geben zu können und welche Vorteile Sie erwarten können.
Communications Mining™ und Google AutoML sind beide Lösungen, bei denen der Benutzer ein Trainings-Dataset mit Anmerkungen erstellen muss, das Beschriftungen mit Konversationen verknüpft. Die Qualität der Trainingsdaten bestimmt die Qualität der Vorhersagen, die von diesem trainierten Modell zurückgegeben werden.
Der Schlüssel zu hochwertiger Trainingsdaten ist, dass Beschriftungen konsistent angewendet werden und genau die Domäne darstellen , über die Sie Vorhersagen treffen möchten.
Der erste große Unterschied zwischen Communications Mining und Google AutoML besteht in der Designidee, wie das Produkt verwendet werden soll.
Aufgaben mit Anmerkungen versehen im Vergleich zu Active Learning
Der AutoML-Flow besteht darin, offline ein mit Anmerkungen versehenes Dataset zu erstellen, das hochgeladen und zum Trainieren eines Modells verwendet wird. Das Kommentieren eines Datasets ist ein kostspieliger Vorgang, der viel Vorabarbeit erfordert. Die Erstellung der Beschriftungen liegt außerhalb des Bereichs für AutoML, aber eine mögliche Lösung besteht darin, die Anmerkungen an Drittanbieter auszulagern. Google stellt zu diesem Zweck Aannotating-Aufgaben bereit , die in AutoML integriert sind, oder man könnte Amazons Automation Robot Version verwenden.
Das ist aus mehreren Gründen suboptimal
-
Der Zugriff durch Dritte ist oft kein Auslöser für sensible interne Konversationen.
-
Es könnte nicht wünschenswert sein, die Anmerkungen an Personen auszulagern, die nicht über das erforderliche Insights verfügen, um die Komplexität der Kommunikation eines Unternehmens vollständig zu erfassen
-
Kontextkenntnisse der Domäne sind der Schlüssel für hochwertige Trainingsdaten. Zum Beispiel kann jeder Bilder vonKatzen und Hunden kommentieren, aber weniger E-Mails von einem Postfach für Ops-Mailboxen der Integration Bank, wofür man Experten benötigt.
Bei Communications Mining™ möchten wir das Hochladen einer großen Menge von Daten ohne Anmerkungen aufrufen und unser aktives Lernen nutzen, um die Anmerkung interaktiv zu erstellen. Wir glauben, dass die interaktive Datenerkundung und -anmerkung der Schlüssel zur Erstellung einer Reihe von Beschriftungen ist, die wirklich alle interessanten Informationen und Nuancen erfassen, die in den Gesprächen eines Unternehmens in der richtigen Granularität zu finden sind.
Wenn Sie bereits über ein großes Dataset mit Anmerkungen verfügen, das Sie als Ausgangspunkt verwenden möchten, können Sie natürlich unser CLI-Tool verwenden , um das mit Anmerkungen versehene Dataset auch hochzuladen.
Erstellung von Modellen: Wastefall und agile Modellierung
AutoML bietet einige Hilfe bei der Verbesserung eines Modells, indem für jede Bezeichnung falsch positive und falsch negative Ergebnisse angezeigt werden. Communications Mining bietet eine Reihe von Warnungen und vorgeschlagenen Aktionen für jede Bezeichnung, die es Benutzern ermöglichen, die Fehlermodi ihres Modells besser zu verstehen und somit den schnellsten Weg zu finden, es zu verbessern.
Eine weitere Achse, auf der sich AutoML und Communications Mining™ unterscheiden, ist das von ihnen verwendete Datenmodell. AutoML bietet eine sehr allgemeine Struktur sowohl für Eingaben als auch für Ziele. Communications Mining ist für die Hauptkommunikationskanäle optimiert, die durch natürliche Sprache übermittelt werden.
Halbstrukturierte Konversationen
Die meisten digitalen Konversationen finden in einem der folgenden Formate statt:
-
Emails
-
Tickets
-
Chats
-
Telefonanrufe
-
Feedback/Bewertungen/Umfragen
Dies sind alles halbstrukturierte Formate, die Informationen enthalten, die über den einfachen Text hinausgehen. Eine E-Mail hat einen Absender und einige Empfänger sowie einen Betreff. Chats haben unterschiedliche Teilnehmer und Zeitstempel. Bewertungen können zugehörige Metadaten, wie z. B. die Punktzahl, haben.
AutoML hat keine kanonische Möglichkeit, diese halbstrukturierten Informationen beim Hochladen von Trainingsbeispielen darzustellen, es verarbeitet ausschließlich Text. Communications Mining™ bietet erstklassige Unterstützung für die E-Mail-Struktur sowie beliebige Metadatenfelder über Benutzereigenschaften.
Wie im folgenden Beispiel gezeigt, enthalten Enterprise-E-Mails oft große Signaturen und/oder rechtliche Haftungsausschluss, die viel länger sein können als der eigentliche Inhalt der E-Mail. AutoML hat keine Logik zum Entfernen von Signaturen, daher haben wir Communications Mining verwendet, um die Signaturen zu analysieren, bevor wir sie an AutoML übergeben haben. Moderne Machine-Learning-Algorithmen können das Rauschen aufgrund von Signaturen sehr gut bewältigen, doch das Gleiche gilt nicht für menschliche Beschrifter. Bei dem Versuch, eine E-Mail auf zutreffende Beschriftungen zu analysieren und nützliche Themen zu erkennen, ist die kognitive Belastung durch das Ignorieren der langen Signaturen nicht verwertbar und kann zu einer schlechteren Beschriftungsqualität führen.
Zugehörige Konzepte
Delivery > Speed Delivery > Cost Delivery > Tracking. Für detailliertere Einblicke sind weitere Aufschlüsselungen möglich, z. B. Delivery > Cost > Free Shipping Delivery > Cost > Taxes & Customs.
Delivery nachverfolgen, ohne explizit etwas für die untergeordneten Beschriftungen tun zu müssen.
AutoML bietet keine Unterstützung für strukturierte Beschriftungen, sondern geht von der vollständigen Abhängigkeit zwischen den Beschriftungen aus. Dies ist das allgemeinste Datenmodell für NLP-Beschriftungen, aber wir glauben, dass es an der Spezifität fehlt, die erforderlich ist, um optimal mit halbstrukturierten Konversationen zu arbeiten.
Zusätzlich zur Beschriftungsstruktur ist oft die Stimmung eines Textteils für die Feedback- oder Umfrageanalyse interessant. Google bietet ein separates Stimmungsmodell, mit dem Benutzer ein einsatzbereites Stimmungsmodell verwenden können, das eine globale Stimmung für die Eingabe erzeugt. Bei komplexer natürlicher Sprache ist es jedoch häufig, dass mehrere Stimmungen gleichzeitig vorhanden sind. Denken Sie zum Beispiel an das folgende Feedback:
Positive - und eine Negative -Version jeder Beschriftung erstellt wird, gibt es keine Möglichkeit, anzugeben, dass es sich um zwei Versionen derselben Beschriftung handelt, was bedeutet, dass man zweimal als beschriftet werden muss viele Daten.
Identische Eingaben
Eine weitere nützliche Beobachtung betrifft die Deduplizierung von Eingaben. Generell ist es bei der Validierung eines Machine Learning-Modells wichtig, eine strenge Trennung zwischen Trainings- und Testsätzen einzuhalten, um Datenverluste zu vermeiden, die zu zu optimisierten Leistungsschätzungen und damit zu unerwarteten Fehlern bei der Bereitstellung führen können.
AutoML dedupliziert automatisch alle Eingaben und warnt den Benutzer, dass es doppelte Eingaben gibt. Das ist zwar der richtige Ansatz für eine universelle NLP-API, aber bei Konversationsdaten ist dies nicht der Fall.
Viele E-Mails, die intern gesendet werden, werden automatisch generiert, von Out-of-Office-Nachrichten bis hin zu Besprechungserinnerungen. Bei der Analyse der Ergebnisse einer Umfrage ist es jederzeit möglich, dass viele Personen genau das Gleiche beantworten, insbesondere bei sensiblen Fragen wie z. B
Is there anything we could do to improve? → No.
Dies bedeutet, dass viele dieser doppelten Eingaben in der realen Verteilung rechtsgültig dupliziert werden. Es ist wichtig, zu bewerten, wie gut das Modell bei diesen bekannten, streng identischen Eingaben funktioniert.
‑ Nachdemwir nun die Unterschiede auf höchster Ebene besprochen haben, möchten wir die Rohleistung beider Produkte auswerten, um zu überprüfen, welches weniger Aufwand erfordern würde, um ein produktionsreifes Modell bereitzustellen.
Einrichten
Wir möchten den Vergleich so direkt wie möglich gestalten. Wir bewerten die Leistung anhand von drei Datasets, die für drei Kernanwendungsfälle von NLP in Unternehmen repräsentativ sind
|
Größe |
Zugewiesene Beschriftungen |
Eindeutige Beschriftungen | |
|---|---|---|---|
|
E-Mails von der Integration Bank |
1368 |
4493 |
59 |
|
E-Mails zur Versicherungsüberprüfung |
3964 |
5188 |
25 |
|
E-Commerce-Feedback |
3510 |
7507 |
54 |
Wir haben die Daten wie folgt verarbeitet
-
Datenformat. Für Communications Mining™ verwenden wir die integrierte E-Mail-Unterstützung. AutoML erwartet ein Textblob, daher haben wir für die Darstellung der E-Mail-Struktur das Format
Subject: <SUBJECT-TEXT> Body: <BODY-TEXT>verwendet. -
Entfernen der Signatur. Alle E-Mail-Texte wurden vorverarbeitet, um ihre Signaturen zu entfernen, bevor sie an das Machine-Learning-Modell übergeben wurden.
Da AutoML-Anmerkungsaufgaben nicht für vertrauliche interne Daten anwendbar sind, verwenden wir von KMUs mit der aktiven Lernplattform Communications Mining annotierte Bezeichnungen, um die überwachten Daten zu erstellen, die wir zum Trainieren beider Modelle verwenden werden.
Wir haben diese Datasets aufgrund ihres repräsentativen Rufs ausgewählt und sie nicht geändert, nachdem wir die ersten Ergebnisse gesehen haben, um Verzerrungen bei der Auswahl zu vermeiden.
Wir behalten einen festen Testsatz bei, mit dem wir beide Plattformen vergleichen und trainieren beide mit den genau gleichen Trainingsdaten. AutoML erfordert, dass Benutzer Trainings- und Validierungsaufteilungen manuell angeben, deshalb wählen wir zufällig 10 % der Trainingsdaten aus, um sie als Validierung zu verwenden, wie in den AutoML-Dokumenten empfohlen.
Metriken
Die Seite Validierung in Communications Mining™ hilft Benutzern, die Leistung ihrer Modelle zu verstehen. Die primäre Metrik, die wir verwenden, ist die mittlere durchschnittliche Genauigkeit. AutoML meldet die durchschnittliche Genauigkeit für alle Beschriftungsvorhersagen sowie die Genauigkeit und Erinnerung bei einem bestimmten Schwellenwert.
Mittlere durchschnittliche Genauigkeit berücksichtigt die Leistung aller Bezeichnungen besser, da es sich um einen ungewichteten Durchschnitt der Leistung einzelner Bezeichnungen handelt, während Durchschnittliche Genauigkeit, Präzision und Rückruf das globale Verhalten des Modells über alle Eingaben und Bezeichnungen hinweg erfassen und somit das Allgemeine besser darstellen vorkommenden Beschriftungen.
Wir vergleichen die folgenden Metriken:
-
Mittlere durchschnittliche Genauigkeit Die von Communications Mining™ verwendete Metrik. Es handelt sich um die Makro-Durchschnittliche Genauigkeit der Beschriftungen
-
Durchschnittliche Genauigkeit Die von AutoML verwendete Metrik, also die gemittelte Genauigkeit aller Vorhersagen
-
F1-Score – Präzision und Rückruf sind allein nicht aussagekräftig, da das eine gegen das andere getauscht werden kann. Wir melden die F1-Punktzahl, die die Leistung bei einer Aufgabe darstellt, bei der Präzision und Wiedererkennung ebenso wichtig sind.
Interessierte Betrachter finden die vollständigen Präzisions-Rückruf-Kurben im entsprechenden Abschnitt.
Communications Mining™ ist AutoML bei jeder Metrik in allen Benchmark-Datasets durchschnittlich 5 bis 10 Punkte voraus. Dies ist ein klarer Hinweis darauf, dass ein Tool, das darauf spezialisiert ist, aus Kommunikation zu lernen, besser für leistungsstarke Automatisierungen und Analysen in Unternehmen geeignet ist.
Da AutoML für die Bewältigung allgemeiner NLP-Aufgaben entwickelt wurde, muss es flexibel genug sein, um sich an jede textbasierte Aufgabe anzupassen, was jedoch zu Lasten spezifischer Aufgaben geht. Darüber hinaus konzentriert sich das anfängliche Wissen von AutoML, wie bei vielen Standardlösungen, die Transferlernen nutzen, mehr auf die alltägliche Sprache, die häufig in sozialen Medien und Nachrichtenartikeln verwendet wird. Das bedeutet, dass die Datenmenge, die zur Anpassung an die Unternehmenskommunikation erforderlich ist, viel größer ist als bei einem Modell, dessen Hauptzweck die Unternehmenskommunikation ist, wie Communications Mining, das den Lerntransfer von sehr ähnlichem Ausgangswissen nutzen kann. In Bezug auf die konkrete Anwendung bedeutet dies mehr wertvolle KMU-Zeit für das Kommentieren, längere Zeit bis zur Wertschöpfung aus dem Modell und höhere Einführungskosten.
Modus mit niedrigen Datenmengen
Zusätzlich zum vollständigen Dataset möchten wir auch die Leistung von Modellen auswerten, die mit wenigen Daten trainiert wurden. Da das Sammeln von Trainingsdaten ein teures und zeitaufwändiges Verfahren ist, ist die Geschwindigkeit, mit der ein Modell verbessert wird, wenn Daten angegeben werden, ein wichtiger Aspekt bei der Auswahl einer NLP-Plattform.
Lernen mit wenigen Daten wird als Learning mit wenigen Treffern bezeichnet. Insbesondere wenn versucht wird, aus K Beispielen für jede Bezeichnung zu lernen, wird dies in der Regel als K-Shot-Lernen vermerkt.
Um die Weniger-Shot-Leistung auszuwerten, erstellen wir kleinere Versionen jedes Datasets, indem wir 5 bzw. 10 Beispiele jeder Beschriftung auswählen und diese als 5-Shot- bzw. 10-Shot-Datasets notieren. Wie bereits erwähnt, verwendet Communications Mining™ eine hierarchische Beschriftungsstruktur, was bedeutet, dass wir nicht genau 5 Beispiele für jede Beschriftung erfassen können, da untergeordnete Elemente nicht ohne die übergeordneten Elemente angewendet werden können. Daher erstellen wir diese Datasets, indem wir Blattbeschriftungen in der Hierarchie auswählen, sodass die übergeordneten Elemente möglicherweise mehr Beispiele haben.
Diese Beispiele werden vollständig zufällig gezogen, ohne aktive Lernverzerrung, die die Communications Mining-Plattform begünstigen könnten.
Da AutoML nur dann Modelle trainiert, wenn alle Beschriftungen mindestens 10 Beispiele enthalten, können wir keine 5-Socket-Leistung melden
Im Bereich der wenig Daten ist Communications Mining AutoML bei den meisten Metriken für alle Aufgaben deutlich besser. Wir beobachten, dass die 5-Spot-Leistung für Communications Mining bei den meisten Metriken bereits mit der 10-Spot-AutoML-Leistung konkurrenzfähig ist .
Ein genaues Modell mit wenigen beschrifteten Trainingspunkten ist äußerst leistungsstark, da es bedeutet, dass Menschen viel früher mit der Zusammenarbeit mit dem Modell beginnen können, wodurch die aktive Lernschleife verkürzt wird.
Die einzige Metrik, für die AutoML eine höhere Leistung aufweist, ist die mittlere Durchschnittsgenauigkeit für die 10-Punkte-Leistung bei Kundenfeedback, bei der AutoML Communications Mining™ um 1,5 Punkte schlägt.
Da es sich bei AutoML um ein Allzwecktool handelt, funktioniert es am besten für Daten, die Prosa-ähnlichen sind, und Kundenfeedback enthält in der Regel keine wichtigen halbstrukturierten Daten oder domänenspezifischen Sprache, mit denen ein Allzwecktool Probleme haben könnte, was jedoch möglicherweise der Fall ist ein Grund, warum AutoML so gut funktioniert.
Trainingszeit
Modelltraining ist ein komplexer Prozess, daher ist die Trainingszeit ein wichtiger Faktor, der berücksichtigt werden muss. Schnelles Modelltraining bedeutet schnellere Iterationszyklen und eine strengere Feedback-Schleife. Das bedeutet, dass jede Beschriftung, die von einem Menschen angewendet wird, zu schnelleren Verbesserungen des Modells führt, wodurch die Zeit verkürzt wird, die erforderlich ist, um einen Wert aus dem Modell abzurufen.
|
Communications Mining™ |
AUTOML | |
|---|---|---|
|
E-Mails von der Integration Bank |
1m32s |
4h4m |
|
E-Commerce-Feedback |
2:45 Sek |
4h4m |
|
E-Mails zur Versicherungsüberprüfung |
55s |
3h59m |
Communications Mining™ wurde für aktives Lernen entwickelt. Die Trainingszeit ist für uns sehr wichtig und unsere Modelle sind so optimiert, dass sie schnell trainieren, ohne die Genauigkeit zu beeinträchtigen.
Das Training eines AutoML-Modells ist im Durchschnitt etwa 200-mal langsamer als Communications Mining.
AutoML-Modelle benötigen um Größenordnungen längere Zeit zum Trainieren, wodurch sie viel weniger geeignet sind für die Verwendung in einer aktiven Lernschleife. Da die Iterationszeit so lang ist, besteht der beste Weg zur Verbesserung einer AutoML wahrscheinlich in großen Batches von Anmerkungen zwischen den erneuten Modelltrainings, was die Gefahr von redundanten Datenkommentaren (mit mehr Trainingsbeispielen für ein bereits gut verstandenes Konzept) und mangelhafter Daten gefährdet Datenexploration (wenn Sie nicht wissen, was das Modell nicht weiß, ist es schwieriger, eine höhere Konzeptabdeckung zu erreichen).
Beim Aufbau einer NLP-Unternehmenslösung ist die rohe Vorhersageleistung eines Modells nur ein Aspekt, der berücksichtigt werden muss. Wenn wir festgestellt haben, dass Communications Mining™ AutoML bei gängigen NLP-Aufgaben in Unternehmen übertroffen hat, waren die wichtigsten Erkenntnisse, die wir gewonnen haben, die grundlegenden Unterschiede bei den NLP-Ansätzen dieser Plattformen.
-
Communications Mining ist ein Tool, das auf die halbstrukturierte Konversationsanalyse zugeschnitten ist. Es enthält mehr der Komponenten, die zum Erstellen eines Modells von Grund auf in einem Agilen-Framework erforderlich sind.
-
AutoML ist ein universelles NLP-Tool, das mit anderen Komponenten integriert werden muss, um effektiv zu sein. Es konzentriert sich mehr auf das Erstellen von Modellen mit bereits vorhandenen mit Anmerkungen versehenen Daten in einem Falls-Framework für das Erstellen von Machine-Learning-Modellen.
-
Beide Tools sind in der Lage, höchst konkurrenzfähige, moderne Modelle zu erstellen, aber Communications Mining ist besser für die spezifischen Aufgaben geeignet, die bei der Analyse der Unternehmenskommunikation häufig sind.
Wenn die genauen Anforderungen nicht im Voraus definiert werden können, sind die langen Trainingszeiten von AutoML-Modellen untragbar, um die interaktive Datenerkundung in einer aktiven Lernschleife voranzutreiben, wofür Communications Mining entwickelt wurde.
Die Anforderung von AutoML, für jede Beschriftung 10 Beispiele zu haben, bevor ein Modell trainiert wird, bedeutet, dass das Modell nicht effektiv als Steuerung für die Anmerkung in den sehr frühen Phasen verwendet werden kann, was genau der schwierigste Teil eines Machine Learning-Projekts ist.
Darüber hinaus bedeutet die Verteilungslücke zwischen den Aufgaben, die AutoML und Communications Mining erwarten, dass das spezifischere Tool aufgrund des gezielteren Einsatzes von Transferlernen schneller Modelle von höherer Qualität herstellen kann.
Wenn Sie diesen Vergleich interessant fanden, Anmerkungen oder Fragen haben oder Communications Mining verwenden möchten, um die Konversationen Ihres Unternehmens besser zu verstehen, wenden Sie sich an UiPath®.