communications-mining
latest
false
Wichtig :
Dieser Inhalt wurde maschinell übersetzt.
UiPath logo, featuring letters U and I in white

Communications Mining-Entwicklerhandbuch

Letzte Aktualisierung 26. Nov. 2024

Beschriftungen und allgemeine Felder

Auf dieser Seite wird beschrieben, wie Bezeichnungen und allgemeine Felder , die von der Communications Mining-Plattform heruntergeladen wurden, zur Verwendung in Ihrer Anwendung interpretiert werden. Auf dieser Seite werden die Beschriftungen und allgemeinen Felder selbst beschrieben. Um zu erfahren, wo sie in den heruntergeladenen Daten zu finden sind, lesen Sie unbedingt die Dokumentation für Ihre gewählte Downloadmethode.

Beschriftungen

Ein Kommentar kann null, eine oder mehrere vorhergesagte Beschriftungen haben. Das folgende Beispiel zeigt zwei vorhergesagte Beschriftungen (Reihenfolge und Reihenfolge > Fehlend) zusammen mit ihren Konfidenzwerten. Dieses Format wird von den meisten API-Routen verwendet. Eine Ausnahme ist die Route des Dataset-Exports , bei der Beschriftungsnamen als Strings statt Listen formatiert werden (um mit dem CSV-Export im Browser konsistent zu sein).

Einige Routen (derzeit VorhersageRouten) geben optional eine Liste von Schwellenwertnamen zurück („High_recall“, „ausgleichend“, „High_precision“), die die Konfidenzbewertung der Bezeichnung erfüllt. Dies ist eine nützliche Alternative zur manuellen Auswahl von Schwellenwerten, insbesondere für sehr große Taxonomien. In Ihrer Anwendung entscheiden Sie, ob Sie an den Ergebnissen mit „High_recall“, „ausgewogen“ oder „High_precision“ interessiert sind, und verwerfen Sie dann alle Beschriftungen, bei denen der gewählte automatische Schwellenwert fehlt, und verarbeiten die verbleibenden Beschriftungen wie zuvor.

  • Alle Routen außer Dataset-Export
    {
      "labels": [
        {
          "name": ["Order"],
          "probability": 0.6598735451698303
        },
        {
          "name": ["Order", "Missing"],
          "probability": 0.6598735451698303
        }
      ]
    }{
      "labels": [
        {
          "name": ["Order"],
          "probability": 0.6598735451698303
        },
        {
          "name": ["Order", "Missing"],
          "probability": 0.6598735451698303
        }
      ]
    }
  • Dataset-Export
    {
      "labels": [
        {
          "name": "Order",
          "probability": 0.6598735451698303
        },
        {
          "name": "Order > Missing",
          "probability": 0.6598735451698303
        }
      ]
    }{
      "labels": [
        {
          "name": "Order",
          "probability": 0.6598735451698303
        },
        {
          "name": "Order > Missing",
          "probability": 0.6598735451698303
        }
      ]
    }
  • Vorhersage (automatisch Schwellenwert)
    {
      "labels": [
        {
          "name": ["Order"],
          "probability": 0.6598735451698303,
          "auto_thresholds": ["high_recall", "balanced", "sampled_2"]
        },
        {
          "name": ["Order", "Missing"],
          "probability": 0.6598735451698303,
          "auto_thresholds": ["high_recall", "sampled_2"]
        }
      ]
    }{
      "labels": [
        {
          "name": ["Order"],
          "probability": 0.6598735451698303,
          "auto_thresholds": ["high_recall", "balanced", "sampled_2"]
        },
        {
          "name": ["Order", "Missing"],
          "probability": 0.6598735451698303,
          "auto_thresholds": ["high_recall", "sampled_2"]
        }
      ]
    }

Das Beschriftungsobjekt hat das folgende Format:

NameTypBESCHREIBUNG
nameArray<string> oder String
Alle API-Routen außer Dataset-Export: Der Name der vorhergesagten Beschriftung, formatiert als Liste hierarchischer Beschriftungen. Beispielsweise hat die Beschriftung Übergeordnetes Label > Untergeordnetes Label das Format ["Parent Label", "Child Label"].
Dataset-Export-API-Route: Der Name der vorhergesagten Beschriftung, formatiert als String mit " > " getrennten hierarchischen Beschriftungen.
probabilityNummerKonfidenzbewertung. Eine Zahl zwischen 0.0 und 1.0.
sentimentNummerStimmungsbewertung. Eine Zahl zwischen -1.0 und 1.0. Wird nur zurückgegeben, wenn Stimmungen im Dataset aktiviert sind.
auto_thresholdsarray<string>Eine Liste der automatisch berechneten Schwellenwerte, die die Konfidenzbewertung der Bezeichnung erfüllt. Die Schwellenwerte werden als beschreibende Namen zurückgegeben (anstelle von Werten zwischen 0,0 und 1), die verwendet werden können, um Beschriftungen, die Ihren gewünschten Konfidenzniveaus nicht entsprechen, einfach herauszufiltern. Die Schwellenwertnamen „High_recall“, „ausgewogen“ und „High_precision“ entsprechen drei ansteigenden Konfidenzniveaus. Zusätzliche Schwellenwerte vom Typ „sampled_0“ … „sampled_5“ bieten eine erweiterte Möglichkeit, Aggregationen für Data-Science-Anwendungen durchzuführen, und können ignoriert werden, wenn Sie Kommentare einzeln verarbeiten.

Häufige Fragen zu Beschriftungen

F: Wie kann ich Beschriftungen von der Communications Mining-Plattform herunterladen?

A: Die folgenden Download-Methoden bieten Bezeichnungen: Communications Mining API, CSV-Downloads und Communications Mining -Befehlszeilentool. Einen Überblick über die verfügbaren Downloadmethoden finden Sie auf der Seite Herunterladen von Daten . Einen detaillierten Vergleich finden Sie unten im FAQ-Element.

F: Bieten alle Downloadmethoden die gleichen Informationen an?

A: In den folgenden Tabellen werden die Unterschiede zwischen den Download-Methoden erläutert. Eine Beschreibung der Bezeichnungen auf der Seite „Erkunden“ in der Communications Mining-Webbenutzeroberfläche dient zum Vergleich.

Nicht deterministische Methoden

Die Seite Erkunden, der CSV-Download, das Communications Mining-Befehlszeilentool und der Export-API-Endpunkt bieten die neuesten verfügbaren Vorhersagen. Beachten Sie, dass Sie, nachdem eine neue Modellversion trainiert wurde, aber bevor alle Vorhersagen neu berechnet wurden, eine Mischung aus Vorhersagen aus der aktuellen und den vorherigen Modellversionen sehen werden. Diese Methoden erkennen zugewiesene Bezeichnungen und zeigen sie als zugewiesen oder mit einem Konfidenzwert von 1 an.

MethodZugewiesene BeschriftungenVORVorhergesagte Labels
Seite ErkundenDie Seite „Erkunden“ unterscheidet zugewiesene Bezeichnungen visuell von vorhergesagten Bezeichnungen. Es werden keine Konfidenzwerte für zugewiesene Bezeichnungen gemeldet. Die Seite Erkunden wurde entwickelt, um den Modelltrainingsworkflow zu unterstützen, sodass sie ausgewählte vorhergesagte Beschriftungen anzeigt, die der Benutzer möglicherweise anheften möchte. Es werden bevorzugt Beschriftungen angezeigt, die einen ausgewogenen Schwellenwert erfüllen (abgeleitet von der F-Punktzahl für diese Bezeichnung), aber auch Beschriftungen mit geringerer Wahrscheinlichkeit als Vorschlag anzeigen können, wenn der Benutzer sie wahrscheinlich anheften möchte.
Export-APIGibt zugewiesene Bezeichnungen zurück.Gibt alle vorhergesagten Bezeichnungen zurück (es wird kein Schwellenwert angewendet).
CSV-DownloadGibt einen Konfidenzwert von 1 für zugewiesene Beschriftungen zurück. Beachten Sie, dass vorhergesagte Bezeichnungen auch eine Punktzahl von 1 haben können, wenn das Modell sehr sicher ist. Gibt alle vorhergesagten Bezeichnungen zurück (es wird kein Schwellenwert angewendet).
Communications Mining-CLIWenn ein Kommentar zugewiesene Beschriftungen hat, werden sowohl zugewiesene als auch vorhergesagte Beschriftungen für diesen Kommentar zurückgegeben.Gibt alle vorhergesagten Bezeichnungen zurück (es wird kein Schwellenwert angewendet).

Deterministische Methoden

Im Gegensatz zu den oben genannten nicht-determinanten Methoden geben die Stream-API- und Predict-API-Routen Vorhersagen von einer bestimmten Modellversion zurück. Diese API-Routen verhalten sich so, als ob Sie einen Kommentar von der Plattform heruntergeladen und dann zur Vorhersage anhand einer bestimmten Modellversion gesendet haben und die zugewiesenen Bezeichnungen nicht kennen.

MethodZugewiesene BeschriftungenVORVorhergesagte Labels
Stream-API und Vorhersage-APIDie zugewiesenen Bezeichnungen sind nicht bekannt.Gibt vorhergesagte Bezeichnungen mit einem Konfidenzwert über den angegebenen Bezeichnungsschwellenwerten zurück (oder über dem Standardwert von 0,25, wenn keine Schwellenwerte angegeben sind).

Verwenden von Beschriftungen in der Automatisierung

Wenn Sie eine Anwendung entwerfen, die Entscheidungen auf Nachrichtenbasis trifft, sollten Sie den Konfidenzwert jeder Bezeichnung in eine Ja- oder Nein-Antwort umwandeln. Dazu können Sie den Mindestkonfidenzwert bestimmen, bei dem die Vorhersage als „Ja, die Bezeichnung gilt“ behandelt wird. Wir nennen diese Zahl den Schwellenwert für die Konfidenzbewertung.

Wichtig:

AUSWÄHLEN, WÄHLEN

Ein häufiges Missverständnis besteht darin, den Schwellenwert so zu wählen, dass er der gewünschten Genauigkeit entspricht („Ich möchte, dass die Beschriftungen in mindestens 70 % der Fälle korrekt sind, also wähle ich Beschriftungen mit Konfidenzwerten über 0,70 aus“). Informationen zu Schwellenwerten und deren Auswahl finden Sie im Abschnitt Konfidenzschwellenwerte des Integrationsleitfadens.

Verwenden von Beschriftungen in der Analytik

Wenn Sie Beschriftungen zur Verwendung in einer Analyseanwendung exportieren, ist es wichtig zu entscheiden, ob die Konfidenzbewertungen für Benutzer verfügbar gemacht werden sollen. Für Benutzer von Geschäftsanalyseanwendungen sollten Sie die Konfidenzbewertungen mithilfe eines der im Abschnitt Automatisierung beschriebenen Ansätze in das Vorhandensein oder Fehlen der Beschriftung umwandeln. Auf der anderen Seite profitieren Benutzer von Data-Science-Anwendungen, die mit Wahrscheinlichkeitsdaten arbeiten, vom Zugriff auf rohe Konfidenzwerte.

Stellen Sie sicher, dass alle Vorhersagen in Ihrer Analyseanwendung aus der gleichen Modellversion stammen. Wenn Sie Ihre Integration aktualisieren, um Vorhersagen aus einer neuen Modellversion abzurufen, müssen alle Vorhersagen erneut aufgenommen werden, damit die Daten konsistent bleiben.

Beschriftungseigenschaften

Wenn dem Dataset Dienstgüte-Bezeichnungen hinzugefügt wurden, enthält die Vorhersageantwort für jeden Kommentar eine Dienstgüte-Bewertung. Wenn die Stimmung für ein Dataset aktiviert wurde, enthält die Vorhersageantwort für jeden Kommentar eine Stimmungsbewertung. Beide Punktzahlen finden Sie im Teil label_properties der Antwort.
{
  "label_properties": [
    {
      "property_id": "0000000000000001",
      "property_name": "tone",
      "value": -1.8130283355712891
    },
    {
      "id": "0000000000000002",
      "name": "quality_of_service",
      "value": -3.006324252113699913
    }
  ]
}{
  "label_properties": [
    {
      "property_id": "0000000000000001",
      "property_name": "tone",
      "value": -1.8130283355712891
    },
    {
      "id": "0000000000000002",
      "name": "quality_of_service",
      "value": -3.006324252113699913
    }
  ]
}

Das Beschriftungs-Eigenschaftsobjekt hat das folgende Format:

NameTypBESCHREIBUNG
namestringName der Label-Eigenschaft.
idstringInterne ID der Label-Eigenschaft.
valueNummerWert der Label-Eigenschaft. Ein Wert zwischen -10 und 10.

Allgemeine Felder

Ein Kommentar kann null, ein oder mehrere vorhergesagte allgemeine Felder haben. Das folgende Beispiel zeigt eine vorhergesagte order_number -Entität. Beachten Sie, dass allgemeine Felder im Gegensatz zu Beschriftungen keine zugehörigen Konfidenzbewertungen haben.
"entities": [
    {
        "id": "0abe5b728ee17811",
        "name": "order_number",
        "span": {
            "content_part": "body",
            "message_index": 0,
            "utf16_byte_start": 58,
            "utf16_byte_end": 76,
            "char_start": 29,
            "char_end": 38
        },
        "name": "order_number",
        "kind": "order_number", # deprecated
        "formatted_value": "ABC-123456",
        "capture_ids": []
    }
]"entities": [
    {
        "id": "0abe5b728ee17811",
        "name": "order_number",
        "span": {
            "content_part": "body",
            "message_index": 0,
            "utf16_byte_start": 58,
            "utf16_byte_end": 76,
            "char_start": 29,
            "char_end": 38
        },
        "name": "order_number",
        "kind": "order_number", # deprecated
        "formatted_value": "ABC-123456",
        "capture_ids": []
    }
]

Die API gibt Entitäten in folgendem Format zurück:

NameTypBESCHREIBUNG
idstringEntitäts-ID.
namestringEntitätsname.
kindstring(Veraltet) Entitätsart.
formatted_valuestringEntitätswert.
spanSpanEin Objekt, das den Ort der Entität im Kommentar enthält.
capture_idsarray<int>Die Erfassungs-IDs der Gruppen, zu denen eine Entität gehört.

Formatting

Jede Entität hat einen span und einen formatted_value. Das span stellt die Grenzen der Entität im entsprechenden Kommentar dar. formatted_value entspricht in der Regel dem Text, der von diesem Abschnitt abgedeckt wird, mit Ausnahme von einigen spezifischen Fällen, die unten beschrieben werden.

Geldmenge

Die Entität Monetary Quantity extrahiert eine Vielzahl von Geldbeträgen und wendet eine gemeinsame Formatierung an. Beispielsweise werden „1M USD“, „USD 1000000“ und „1,000,000 usd“ alle als 1,000,000.00 USD extrahiert. Da der extrahierte Wert einheitlich formatiert ist, können Sie die Währung und den Betrag einfach abrufen, indem Sie auf Leerzeichen aufteilen.
Wenn die Währung jedoch nicht eindeutig ist, behält der extrahierte Wert die nicht eindeutige Währung bei. Beispielsweise werden „$1M“ und „$1,000,000“ als $1,000,000.00 und nicht als 1,000,000.00 USD extrahiert, da sich ein „$“-Zeichen sowohl auf einen Kanadischen oder Australischen Dollar als auch auf einen US-Dollar beziehen könnte.

Datum

Die Entität Date extrahiert alle Datumsangaben, die in einem Kommentar erscheinen, und normalisiert sie mithilfe des Standardformats ISO 8601, gefolgt von der Zeit in UTC. Beispielsweise werden „25. Januar 2020“, „25/01/2020“ und „jetzt“ in einer E-Mail, die am 25. Januar 2020 gesendet wurde, alle als „2020-01-25 00:00 UTC“ extrahiert.

Diese Formatierung wird auf jede Entität angewendet, deren Typ einem Datum entspricht, z. B. Stornierungsdaten, Wertdaten oder alle Arten von Datumsangaben, die vom Benutzer trainiert wurden.

Fehlen einige Teile des Datums, wird der Zeitstempel des Kommentars als Anker verwendet; Das Datum „um 16:00 Uhr am Fünften des Monats“ in einer Nachricht, die am 1. Mai 2020 gesendet wurde, wird als „2020-05-05 16:00 UTC“ extrahiert. Wenn keine Zeitzone angegeben ist, wird die Zeitzone des Kommentars verwendet, aber das extrahierte Datum wird immer in der UTC-Zeitzone zurückgegeben.

Land

Ländernamen werden auf einen gemeinsamen Wert normalisiert; Beispielsweise haben beide Strings „UK“ und „Vereinigtes Konigreich“ den formatierten Wert „Vereinigtes Konigreich“.

IDs erfassen

Wenn ein Kommentar als Rich-Text verarbeitet wurde, eine Tabelle enthält und eine Entität in dieser Tabelle abgeglichen wurde, enthält die Eigenschaft capture_ids dieser Entität eine Erfassungs-ID. Entitäten, die in der gleichen Zeile der Tabelle übereinstimmen, haben dieselbe Erfassungs-ID, sodass sie zusammen gruppiert werden können.
Zum Beispiel könnte ein Order ID einem Order Date zugeordnet werden. In einem Kommentar, in dem auf mehrere Aufträge verwiesen wird, kann man die verschiedenen Auftragsdetails unterscheiden, indem Entitäten nach ihren Erfassungs-IDs gruppiert werden.
Heute gehören Entitäten, die in einer Tabelle abgeglichen werden, zu genau einer Gruppe, d. h. ihre capture_ids -Eigenschaft enthält genau eine ID. In Zukunft kann die API mehrere IDs zurückgeben.
In allen anderen Fällen ist die Eigenschaft capture_id eine leere Liste.
Hinweis: Entitäten werden jetzt beibehalten, wenn Textaktualisierungen über CSV-Upload oder API durchgeführt werden.

Allgemeine häufig gestellte Fragen zu Feldern

F: Wie kann ich allgemeine Felder von der Communications Mining-Plattform herunterladen?

A: Die folgenden Download-Methoden bieten allgemeine Felder: Communications Mining API und Communications Mining -Befehlszeilentool. Sehen Sie sich die Übersicht über das Herunterladen von Daten an, um zu verstehen, welche Methode für Ihren Anwendungsfall geeignet ist. Beachten Sie, dass CSV-Downloads keine allgemeinen Felder enthalten.

Modelle

Staging- und Live-Tags

Um die Verwendung von Integrationen zu vereinfachen, kann eine Modellversion in der Communications Mining-Benutzeroberfläche als staging oder live gekennzeichnet werden. Dieses Tag kann für Vorhersage-API-Anforderungen anstelle der Modellversionsnummer bereitgestellt werden. Auf diese Weise kann Ihre Integration Vorhersagen von jeder Modellversion abrufen, auf die das Staging- oder Live-Tag verweist, was Plattformbenutzer einfach über die Communications Mining-Benutzeroberfläche verwalten können.

Details der Modellversion

Details zu einer bestimmten Modellversion können mit dem Validierungs-API-Endpunkt abgerufen werden.

Darüber hinaus enthalten Antworten auf Vorhersageanforderungen Informationen über das Modell, das für die Vorhersagen verwendet wurde.

"model": {
    "version": 2,
    "time": "2021-02-17T12:56:13.444000Z"
}"model": {
    "version": 2,
    "time": "2021-02-17T12:56:13.444000Z"
}
NameTypBESCHREIBUNG
timeZeitstempelWenn die Modellversion angeheftet wurde.
versionNummerModellversion.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten