- API-Dokumentation
- Einleitung
- Überblick
- Anmerkungen
- Beschriftungen und allgemeine Felder
- Mandanten
- Verwenden der API
- API-Tutorial
- Zusammenfassung
- Quellen
- Datasets
- Anmerkungen
- Anhänge (Attachments)
- Vorhersagen
- Erstellen Sie einen Stream
- Aktualisieren Sie einen Stream
- Rufen Sie einen Stream nach Namen ab
- Rufen Sie alle Streams ab
- Löschen Sie einen Stream
- Ergebnisse aus Stream abrufen
- Kommentare aus einem Stream abrufen (Legacy)
- Bringen Sie einen Stream vor
- Einen Stream zurücksetzen
- Kennzeichnen Sie eine Ausnahme
- Entfernen Sie das Tag einer Ausnahme
- Prüfungsereignisse
- Alle Benutzer abrufen
- CLI
- Integrationsleitfäden
- Exchange Integration mit einem Azure-Dienstbenutzer
- Exchange-Integration mit der Azure-Anwendungsauthentifizierung
- Echtzeit-Automatisierung
- Abrufen von Daten für Tableau mit Python
- Elasticsearch-Integration
- Selbst gehostete EWS-Integration
- UiPath Automatisierungs-Framework
- UiPath Marketplace-Aktivitäten
- offizielle UiPath-Aktivitäten
- Blog
- Wie Maschinen lernen, Wörter zu verstehen: eine Anleitung zu Einbettungen in NLP
- Eingabeaufforderungsbasiertes Lernen mit Transformers
- Ef Robots II: Wissensdegesterration und Feinabstimmung
- Effiziente Transformer I: Warnmechanismen
- Tief hierarchische, nicht überwachte Absichtsmodellierung: Nutzen ohne Trainingsdaten
- Beheben der Anmerkungsverzerrung durch Communications Mining
- Aktives Lernen: Bessere ML-Modelle in weniger Zeit
- Auf Zahlen kommt es an – Bewertung der Modellleistung mit Metriken
- Darum ist Modellvalidierung wichtig
- Vergleich von Communications Mining und Google AutoML für die Ermittlung von Konversationsdaten
Communications Mining-Entwicklerhandbuch
Beschriftungen und allgemeine Felder
Auf dieser Seite wird beschrieben, wie Bezeichnungen und allgemeine Felder , die von der Communications Mining-Plattform heruntergeladen wurden, zur Verwendung in Ihrer Anwendung interpretiert werden. Auf dieser Seite werden die Beschriftungen und allgemeinen Felder selbst beschrieben. Um zu erfahren, wo sie in den heruntergeladenen Daten zu finden sind, lesen Sie unbedingt die Dokumentation für Ihre gewählte Downloadmethode.
Ein Kommentar kann null, eine oder mehrere vorhergesagte Beschriftungen haben. Das folgende Beispiel zeigt zwei vorhergesagte Beschriftungen (Reihenfolge und Reihenfolge > Fehlend) zusammen mit ihren Konfidenzwerten. Dieses Format wird von den meisten API-Routen verwendet. Eine Ausnahme ist die Route des Dataset-Exports , bei der Beschriftungsnamen als Strings statt Listen formatiert werden (um mit dem CSV-Export im Browser konsistent zu sein).
Einige Routen (derzeit VorhersageRouten) geben optional eine Liste von Schwellenwertnamen zurück („High_recall“, „ausgleichend“, „High_precision“), die die Konfidenzbewertung der Bezeichnung erfüllt. Dies ist eine nützliche Alternative zur manuellen Auswahl von Schwellenwerten, insbesondere für sehr große Taxonomien. In Ihrer Anwendung entscheiden Sie, ob Sie an den Ergebnissen mit „High_recall“, „ausgewogen“ oder „High_precision“ interessiert sind, und verwerfen Sie dann alle Beschriftungen, bei denen der gewählte automatische Schwellenwert fehlt, und verarbeiten die verbleibenden Beschriftungen wie zuvor.
- Alle Routen außer Dataset-Export
{ "labels": [ { "name": ["Order"], "probability": 0.6598735451698303 }, { "name": ["Order", "Missing"], "probability": 0.6598735451698303 } ] }
{ "labels": [ { "name": ["Order"], "probability": 0.6598735451698303 }, { "name": ["Order", "Missing"], "probability": 0.6598735451698303 } ] } - Dataset-Export
{ "labels": [ { "name": "Order", "probability": 0.6598735451698303 }, { "name": "Order > Missing", "probability": 0.6598735451698303 } ] }
{ "labels": [ { "name": "Order", "probability": 0.6598735451698303 }, { "name": "Order > Missing", "probability": 0.6598735451698303 } ] } - Vorhersage (automatisch Schwellenwert)
{ "labels": [ { "name": ["Order"], "probability": 0.6598735451698303, "auto_thresholds": ["high_recall", "balanced", "sampled_2"] }, { "name": ["Order", "Missing"], "probability": 0.6598735451698303, "auto_thresholds": ["high_recall", "sampled_2"] } ] }
{ "labels": [ { "name": ["Order"], "probability": 0.6598735451698303, "auto_thresholds": ["high_recall", "balanced", "sampled_2"] }, { "name": ["Order", "Missing"], "probability": 0.6598735451698303, "auto_thresholds": ["high_recall", "sampled_2"] } ] }
Das Beschriftungsobjekt hat das folgende Format:
Name | Typ | BESCHREIBUNG |
---|---|---|
name | Array<string> oder String |
Alle API-Routen außer Dataset-Export: Der Name der vorhergesagten Beschriftung, formatiert als Liste hierarchischer Beschriftungen. Beispielsweise hat die Beschriftung Übergeordnetes Label > Untergeordnetes Label das Format
["Parent Label", "Child Label"] .
Dataset-Export-API-Route: Der Name der vorhergesagten Beschriftung, formatiert als String mit
" > " getrennten hierarchischen Beschriftungen.
|
probability | Nummer | Konfidenzbewertung. Eine Zahl zwischen 0.0 und 1.0. |
sentiment | Nummer | Stimmungsbewertung. Eine Zahl zwischen -1.0 und 1.0. Wird nur zurückgegeben, wenn Stimmungen im Dataset aktiviert sind. |
auto_thresholds | array<string> | Eine Liste der automatisch berechneten Schwellenwerte, die die Konfidenzbewertung der Bezeichnung erfüllt. Die Schwellenwerte werden als beschreibende Namen zurückgegeben (anstelle von Werten zwischen 0,0 und 1), die verwendet werden können, um Beschriftungen, die Ihren gewünschten Konfidenzniveaus nicht entsprechen, einfach herauszufiltern. Die Schwellenwertnamen „High_recall“, „ausgewogen“ und „High_precision“ entsprechen drei ansteigenden Konfidenzniveaus. Zusätzliche Schwellenwerte vom Typ „sampled_0“ … „sampled_5“ bieten eine erweiterte Möglichkeit, Aggregationen für Data-Science-Anwendungen durchzuführen, und können ignoriert werden, wenn Sie Kommentare einzeln verarbeiten. |
F: Wie kann ich Beschriftungen von der Communications Mining-Plattform herunterladen?
A: Die folgenden Download-Methoden bieten Bezeichnungen: Communications Mining API, CSV-Downloads und Communications Mining -Befehlszeilentool. Einen Überblick über die verfügbaren Downloadmethoden finden Sie auf der Seite Herunterladen von Daten . Einen detaillierten Vergleich finden Sie unten im FAQ-Element.
F: Bieten alle Downloadmethoden die gleichen Informationen an?
A: In den folgenden Tabellen werden die Unterschiede zwischen den Download-Methoden erläutert. Eine Beschreibung der Bezeichnungen auf der Seite „Erkunden“ in der Communications Mining-Webbenutzeroberfläche dient zum Vergleich.
Nicht deterministische Methoden
Die Seite Erkunden, der CSV-Download, das Communications Mining-Befehlszeilentool und der Export-API-Endpunkt bieten die neuesten verfügbaren Vorhersagen. Beachten Sie, dass Sie, nachdem eine neue Modellversion trainiert wurde, aber bevor alle Vorhersagen neu berechnet wurden, eine Mischung aus Vorhersagen aus der aktuellen und den vorherigen Modellversionen sehen werden. Diese Methoden erkennen zugewiesene Bezeichnungen und zeigen sie als zugewiesen oder mit einem Konfidenzwert von 1 an.
Method | Zugewiesene Beschriftungen | VORVorhergesagte Labels |
---|---|---|
Seite Erkunden | Die Seite „Erkunden“ unterscheidet zugewiesene Bezeichnungen visuell von vorhergesagten Bezeichnungen. Es werden keine Konfidenzwerte für zugewiesene Bezeichnungen gemeldet. | Die Seite Erkunden wurde entwickelt, um den Modelltrainingsworkflow zu unterstützen, sodass sie ausgewählte vorhergesagte Beschriftungen anzeigt, die der Benutzer möglicherweise anheften möchte. Es werden bevorzugt Beschriftungen angezeigt, die einen ausgewogenen Schwellenwert erfüllen (abgeleitet von der F-Punktzahl für diese Bezeichnung), aber auch Beschriftungen mit geringerer Wahrscheinlichkeit als Vorschlag anzeigen können, wenn der Benutzer sie wahrscheinlich anheften möchte. |
Export-API | Gibt zugewiesene Bezeichnungen zurück. | Gibt alle vorhergesagten Bezeichnungen zurück (es wird kein Schwellenwert angewendet). |
CSV-Download | Gibt einen Konfidenzwert von 1 für zugewiesene Beschriftungen zurück. Beachten Sie, dass vorhergesagte Bezeichnungen auch eine Punktzahl von 1 haben können, wenn das Modell sehr sicher ist. | Gibt alle vorhergesagten Bezeichnungen zurück (es wird kein Schwellenwert angewendet). |
Communications Mining-CLI | Wenn ein Kommentar zugewiesene Beschriftungen hat, werden sowohl zugewiesene als auch vorhergesagte Beschriftungen für diesen Kommentar zurückgegeben. | Gibt alle vorhergesagten Bezeichnungen zurück (es wird kein Schwellenwert angewendet). |
Deterministische Methoden
Im Gegensatz zu den oben genannten nicht-determinanten Methoden geben die Stream-API- und Predict-API-Routen Vorhersagen von einer bestimmten Modellversion zurück. Diese API-Routen verhalten sich so, als ob Sie einen Kommentar von der Plattform heruntergeladen und dann zur Vorhersage anhand einer bestimmten Modellversion gesendet haben und die zugewiesenen Bezeichnungen nicht kennen.
Method | Zugewiesene Beschriftungen | VORVorhergesagte Labels |
---|---|---|
Stream-API und Vorhersage-API | Die zugewiesenen Bezeichnungen sind nicht bekannt. | Gibt vorhergesagte Bezeichnungen mit einem Konfidenzwert über den angegebenen Bezeichnungsschwellenwerten zurück (oder über dem Standardwert von 0,25, wenn keine Schwellenwerte angegeben sind). |
Wenn Sie eine Anwendung entwerfen, die Entscheidungen auf Nachrichtenbasis trifft, sollten Sie den Konfidenzwert jeder Bezeichnung in eine Ja- oder Nein-Antwort umwandeln. Dazu können Sie den Mindestkonfidenzwert bestimmen, bei dem die Vorhersage als „Ja, die Bezeichnung gilt“ behandelt wird. Wir nennen diese Zahl den Schwellenwert für die Konfidenzbewertung.
AUSWÄHLEN, WÄHLEN
Ein häufiges Missverständnis besteht darin, den Schwellenwert so zu wählen, dass er der gewünschten Genauigkeit entspricht („Ich möchte, dass die Beschriftungen in mindestens 70 % der Fälle korrekt sind, also wähle ich Beschriftungen mit Konfidenzwerten über 0,70 aus“). Informationen zu Schwellenwerten und deren Auswahl finden Sie im Abschnitt Konfidenzschwellenwerte des Integrationsleitfadens.
Wenn Sie Beschriftungen zur Verwendung in einer Analyseanwendung exportieren, ist es wichtig zu entscheiden, ob die Konfidenzbewertungen für Benutzer verfügbar gemacht werden sollen. Für Benutzer von Geschäftsanalyseanwendungen sollten Sie die Konfidenzbewertungen mithilfe eines der im Abschnitt Automatisierung beschriebenen Ansätze in das Vorhandensein oder Fehlen der Beschriftung umwandeln. Auf der anderen Seite profitieren Benutzer von Data-Science-Anwendungen, die mit Wahrscheinlichkeitsdaten arbeiten, vom Zugriff auf rohe Konfidenzwerte.
Stellen Sie sicher, dass alle Vorhersagen in Ihrer Analyseanwendung aus der gleichen Modellversion stammen. Wenn Sie Ihre Integration aktualisieren, um Vorhersagen aus einer neuen Modellversion abzurufen, müssen alle Vorhersagen erneut aufgenommen werden, damit die Daten konsistent bleiben.
label_properties
der Antwort.
{
"label_properties": [
{
"property_id": "0000000000000001",
"property_name": "tone",
"value": -1.8130283355712891
},
{
"id": "0000000000000002",
"name": "quality_of_service",
"value": -3.006324252113699913
}
]
}
{
"label_properties": [
{
"property_id": "0000000000000001",
"property_name": "tone",
"value": -1.8130283355712891
},
{
"id": "0000000000000002",
"name": "quality_of_service",
"value": -3.006324252113699913
}
]
}
Das Beschriftungs-Eigenschaftsobjekt hat das folgende Format:
Name | Typ | BESCHREIBUNG |
---|---|---|
name | string | Name der Label-Eigenschaft. |
id | string | Interne ID der Label-Eigenschaft. |
value | Nummer | Wert der Label-Eigenschaft. Ein Wert zwischen -10 und 10. |
order_number
-Entität. Beachten Sie, dass allgemeine Felder im Gegensatz zu Beschriftungen keine zugehörigen Konfidenzbewertungen haben.
"entities": [
{
"id": "0abe5b728ee17811",
"name": "order_number",
"span": {
"content_part": "body",
"message_index": 0,
"utf16_byte_start": 58,
"utf16_byte_end": 76,
"char_start": 29,
"char_end": 38
},
"name": "order_number",
"kind": "order_number", # deprecated
"formatted_value": "ABC-123456",
"capture_ids": []
}
]
"entities": [
{
"id": "0abe5b728ee17811",
"name": "order_number",
"span": {
"content_part": "body",
"message_index": 0,
"utf16_byte_start": 58,
"utf16_byte_end": 76,
"char_start": 29,
"char_end": 38
},
"name": "order_number",
"kind": "order_number", # deprecated
"formatted_value": "ABC-123456",
"capture_ids": []
}
]
Die API gibt Entitäten in folgendem Format zurück:
Name | Typ | BESCHREIBUNG |
---|---|---|
id | string | Entitäts-ID. |
name | string | Entitätsname. |
kind | string | (Veraltet) Entitätsart. |
formatted_value | string | Entitätswert. |
span | Span | Ein Objekt, das den Ort der Entität im Kommentar enthält. |
capture_ids | array<int> | Die Erfassungs-IDs der Gruppen, zu denen eine Entität gehört. |
span
und einen formatted_value
. Das span stellt die Grenzen der Entität im entsprechenden Kommentar dar. formatted_value
entspricht in der Regel dem Text, der von diesem Abschnitt abgedeckt wird, mit Ausnahme von einigen spezifischen Fällen, die unten beschrieben werden.
Geldmenge
Monetary Quantity
extrahiert eine Vielzahl von Geldbeträgen und wendet eine gemeinsame Formatierung an. Beispielsweise werden „1M USD“, „USD 1000000“ und „1,000,000 usd“ alle als 1,000,000.00 USD
extrahiert. Da der extrahierte Wert einheitlich formatiert ist, können Sie die Währung und den Betrag einfach abrufen, indem Sie auf Leerzeichen aufteilen.
$1,000,000.00
und nicht als 1,000,000.00 USD
extrahiert, da sich ein „$“-Zeichen sowohl auf einen Kanadischen oder Australischen Dollar als auch auf einen US-Dollar beziehen könnte.
Datum
Date
extrahiert alle Datumsangaben, die in einem Kommentar erscheinen, und normalisiert sie mithilfe des Standardformats ISO 8601, gefolgt von der Zeit in UTC. Beispielsweise werden „25. Januar 2020“, „25/01/2020“ und „jetzt“ in einer E-Mail, die am 25. Januar 2020 gesendet wurde, alle als „2020-01-25 00:00 UTC“ extrahiert.
Diese Formatierung wird auf jede Entität angewendet, deren Typ einem Datum entspricht, z. B. Stornierungsdaten, Wertdaten oder alle Arten von Datumsangaben, die vom Benutzer trainiert wurden.
Fehlen einige Teile des Datums, wird der Zeitstempel des Kommentars als Anker verwendet; Das Datum „um 16:00 Uhr am Fünften des Monats“ in einer Nachricht, die am 1. Mai 2020 gesendet wurde, wird als „2020-05-05 16:00 UTC“ extrahiert. Wenn keine Zeitzone angegeben ist, wird die Zeitzone des Kommentars verwendet, aber das extrahierte Datum wird immer in der UTC-Zeitzone zurückgegeben.
Land
Ländernamen werden auf einen gemeinsamen Wert normalisiert; Beispielsweise haben beide Strings „UK“ und „Vereinigtes Konigreich“ den formatierten Wert „Vereinigtes Konigreich“.
capture_ids
dieser Entität eine Erfassungs-ID. Entitäten, die in der gleichen Zeile der Tabelle übereinstimmen, haben dieselbe Erfassungs-ID, sodass sie zusammen gruppiert werden können.
Order ID
einem Order Date
zugeordnet werden. In einem Kommentar, in dem auf mehrere Aufträge verwiesen wird, kann man die verschiedenen Auftragsdetails unterscheiden, indem Entitäten nach ihren Erfassungs-IDs gruppiert werden.
capture_ids
-Eigenschaft enthält genau eine ID. In Zukunft kann die API mehrere IDs zurückgeben.
capture_id
eine leere Liste.
F: Wie kann ich allgemeine Felder von der Communications Mining-Plattform herunterladen?
A: Die folgenden Download-Methoden bieten allgemeine Felder: Communications Mining API und Communications Mining -Befehlszeilentool. Sehen Sie sich die Übersicht über das Herunterladen von Daten an, um zu verstehen, welche Methode für Ihren Anwendungsfall geeignet ist. Beachten Sie, dass CSV-Downloads keine allgemeinen Felder enthalten.
staging
oder live
gekennzeichnet werden. Dieses Tag kann für Vorhersage-API-Anforderungen anstelle der Modellversionsnummer bereitgestellt werden. Auf diese Weise kann Ihre Integration Vorhersagen von jeder Modellversion abrufen, auf die das Staging- oder Live-Tag verweist, was Plattformbenutzer einfach über die Communications Mining-Benutzeroberfläche verwalten können.
Details zu einer bestimmten Modellversion können mit dem Validierungs-API-Endpunkt abgerufen werden.
Darüber hinaus enthalten Antworten auf Vorhersageanforderungen Informationen über das Modell, das für die Vorhersagen verwendet wurde.
"model": {
"version": 2,
"time": "2021-02-17T12:56:13.444000Z"
}
"model": {
"version": 2,
"time": "2021-02-17T12:56:13.444000Z"
}
Name | Typ | BESCHREIBUNG |
---|---|---|
time | Zeitstempel | Wenn die Modellversion angeheftet wurde. |
version | Nummer | Modellversion. |
- Beschriftungen
- Häufige Fragen zu Beschriftungen
- Verwenden von Beschriftungen in der Automatisierung
- Verwenden von Beschriftungen in der Analytik
- Beschriftungseigenschaften
- Allgemeine Felder
- Formatting
- IDs erfassen
- Allgemeine häufig gestellte Fragen zu Feldern
- Modelle
- Staging- und Live-Tags
- Details der Modellversion