ai-center

2024.10

true

Versionshinweise
Bevor Sie beginnen
- Installieren oder Aktualisieren von AI Center
- Kompatibilitätsmatrix
Erste Schritte
Installieren von AI Center
Migration und Upgrade
Projekte
- Über Projekte
- Verwalten von Projekten
Datasets
- Über Datasets
- Verwalten von Datasets
Data Labeling
ML-Pakete
Sofort einsetzbare Pakete
Pipelines
ML-Skills
- Über ML-Fähigkeiten
- Verwalten von ML-Fähigkeiten
ML-Protokolle
- Über ML-Protokolle
Document UnderstandingTM im AI Center
- Dokumentmanager
- OCR-Dienste
AI Center-API
- Überblick
- API-Liste
Anleitungen zu …
- Verwalten der Knotenplanung
- ML-Pakete
  - Verwenden von benutzerdefinierter NER mit kontinuierlichem Lernen
Lizenzierung
- AI Units
- Rechtliche Informationen
Grundlegende Anleitung zur Fehlerbehebung
- AI Center-Fehlerbehebung

Wichtig :

Bitte beachten Sie, dass dieser Inhalt teilweise mithilfe von maschineller Übersetzung lokalisiert wurde. Es kann 1–2 Wochen dauern, bis die Lokalisierung neu veröffentlichter Inhalte verfügbar ist.

AI Center – Benutzerhandbuch

BEREITSTELLUNG:

Letzte Aktualisierung 24. Sep. 2025

Verwenden von benutzerdefinierter NER mit kontinuierlichem Lernen

Hintergrundinformationen

Dieses Beispiel wird dazu verwendet, um Chemikalien nach der Kategorie zu extrahieren, die in der Forschungsarbeit erwähnt wird. Mit diesem Verfahren extrahieren Sie die Chemikalien und kategorisieren sie als ABKÜRZUNG, FAMILIE, FORMEL, IDENTIFIZIERER, MEHRFACH, SYSTEMATISCH, TRIVIAL und NO_CLASS.

Empfehlungen

Wann das NER-Modell (Custom Named Entity Recognition) verwendet werden soll

Verwenden Sie das benutzerdefinierte NER-Modell zum Extrahieren von:

spezielle Informationen aus dem Text. Diese Informationen werden als entity bezeichnet.
Die Namen von Personen, Orten, Organisationen, Orten, Datumsangaben, numerischen Werten usw. Die extrahierten Entitäten schließen sich gegenseitig aus. Entitäten befinden sich auf Einzelwort- oder Mehrfachwortebene, nicht auf Unterwortebene. Beispielsweise kann eine Entität im Satz „ I Live in New York “ New York sein, jedoch nicht im Satz „ I Read the New Yorker “.

Sie können die extrahierten Entitäten direkt in den Informationsextraktionsprozessen oder als Eingaben für die nachgelagerten Aufgaben verwenden, wie z. B. Klassifizierung des Quelltexts, Stimmungsanalyse des Quelltexts, PHi usw.

Empfehlungen für Trainings-Datasets

Mindestens 200 Beispiele pro Entität, wenn die Entitäten eine hohe Dichte an Beispielen aufweisen, d. h., dass die meisten Beispiele (mehr als 75 %) 3–5 dieser Entitäten enthalten.
Wenn die Entitäten spärlich sind (jede Stichprobe hat weniger als drei Entitäten), d. h. wenn nur einige der Entitäten in den meisten Dokumenten erscheinen, dann wird empfohlen, mindestens 400 Beispiele pro Entität zu haben. Dies hilft dem Modell, die unterscheidenden Funktionen besser zu verstehen.
Wenn es mehr als 10 Entitäten gibt, fügen Sie 100 weitere Beispiele inkrementell hinzu, bis Sie die gewünschte Leistungsmetrik erreicht haben.

Best Practices

sinnvolle Entitäten haben; Wenn ein Mensch eine Entität nicht identifizieren kann, kann es auch ein Modell nicht sein.
Einfache Entitäten haben. Anstelle einer einzelnen Entitätsadresse sollten Sie diese in mehrere Entitäten aufteilen: Straßenname, Bundeslandname, Stadtname oder Postleitzahl usw.
Erstellen Sie sowohl Trainings- als auch Test-Datasets und verwenden Sie eine vollständige Pipeline für das Training.
Beginnen Sie mit einer Mindestanzahl von Beispielen für die Anmerkung, die alle Entitäten abdecken.
Stellen Sie sicher, dass alle Entitäten sowohl in der Trainings- als auch in der Testaufteilung dargestellt sind.
Führen Sie eine vollständige Pipeline aus und überprüfen Sie die Testmetriken. Wenn die Testmetrik nicht zufriedenstellend ist, überprüfen Sie den Klassifizierungsbericht und identifizieren Sie die Entitäten mit schlechter Leistung. Fügen Sie weitere Beispiele hinzu, die die Entitäten mit geringer Leistung abdecken, und wiederholen Sie den Trainingsprozess, bis die gewünschte Metrik erreicht ist.

Voraussetzungen

Dieses Verfahren verwendet das Paket Custom Named Entity Recognition . Weitere Informationen darüber, wie dieses Paket funktioniert und wofür es verwendet werden kann, finden Sie auf der Seite Erkennung benutzerdefinierter benannter Entitäten (Custom Named Entity Recognition) .

Für dieses Verfahren haben wir Beispieldateien wie folgt bereitgestellt:

Vorbeschriftetes Trainings-Dataset im CoNLL-Format. Sie können das Trainings-Dataset unter dem folgenden Link herunterladen: Trainings-Dataset.
Vorbeschriftetes Test-Dataset. Sie können das Test-Dataset unter dem folgenden Link herunterladen: Test-Dataset.
Beispiel-Workflow zum Extrahieren von Kategorien von Chemikalien, die in der Forschungsarbeit erwähnt wurden. Sie können ihn unter dem folgenden Link herunterladen: Beispielworkflow.
Hinweis: Stellen Sie sicher, dass die folgenden Variablen in der Beispieldatei ausgefüllt sind:
- in_emailAdress – die E-Mail-Adresse, der die Action Center-Aufgabe zugewiesen wird
- in_MLSkillEndpoint – Öffentlicher Endpunkt der ML-Fähigkeit
- in_MLSkillAPIKey – API-Schlüssel der ML-Fähigkeit
- in_labelStudioEndpoint – Optional, um kontinuierliche Beschriftung zu aktivieren: Import-URL eines Label-Studio-Projekts angeben

Verfahren

Verwenden Sie die folgenden Schritte, um Chemikalien nach ihrer Kategorie aus Forschungsarbeiten zu extrahieren.

Importieren Sie das Beispiel-Dataset ins UiPath® AI Center. Wechseln Sie dazu zum Menü Datasets und laden Sie den Ordner train und den Ordner test aus dem Beispiel hoch.
Wählen Sie das gewünschte benutzerdefinierte NER-Paket unter ML-Pakete > Sofort einsetzbare Pakete > UiPath Sprachanalyse aus und erstellen Sie es.
Wechseln Sie zum Menü Pipelines und erstellen Sie eine neue, vollständige Pipelineausführung für das Paket, das im vorherigen Schritt erstellt wurde. Verweisen Sie auf das Trainings- und das Test-Dataset, die in der Beispieldatei zur Verfügung gestellt werden.

Nach Abschluss sind die Ergebnisse der Pipeline unter Artefakte verfügbar. Sie können den Klassifizierungsbericht herunterladen, um die Testergebnisse auszuwerten.
Erstellen Sie eine neue ML-Fähigkeit mithilfe des Pakets, das von der Pipelineausführung aus dem vorherigen Schritt generiert wurde, und stellen Sie sie bereit.
Sobald die Fähigkeit bereitgestellt wurde, nutzen Sie sie im in UiPath® Studio bereitgestellten Workflow. Um die Erfassung von Daten mit schwachen Vorhersagen zu ermöglichen, stellen Sie eine Label Studio-Instanz bereit und geben Sie die Instanz-URL und den API-Schlüssel in der Label Studio-Aktivität im Workflow an.

Erste Schritte mit Label Studio

Installieren Sie Label Studio auf Ihrer lokalen Maschine oder Cloud-Instanz. Folgen Sie dazu den Anweisungen auf der Seite Label Studio .
Erstellen Sie ein neues Projekt aus der benannten Entitätserkennungsvorlage und definieren Sie Ihre Labelnamen.
Stellen Sie sicher, dass die Labelnamen keine Sonderzeichen oder Leerzeichen enthalten. Verwenden Sie beispielsweise anstelle von Set Date SetDate.
Stellen Sie sicher, dass der Wert des <Text>-Tags "$text" ist.
Laden Sie die Daten mithilfe der API von der API-Seite von Label Studio hoch.
Beispiel für eine cURL-Anforderung:
```
curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
--header 'Content-Type: application/json' \)\)
--header 'Authorization: Token <Token>' \)\)
--data-raw '[
    {
      "data": {
        "text": "<Text1>"
      },
    },
    {
      "data": {
        "text": "<Text2>"
       }
    }
]'curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
--header 'Content-Type: application/json' \)\)
--header 'Authorization: Token <Token>' \)\)
--data-raw '[
    {
      "data": {
        "text": "<Text1>"
      },
    },
    {
      "data": {
        "text": "<Text2>"
       }
    }
]'
```
Erstellen Sie Anmerkungen zu Ihren Daten.
Exportieren Sie die Daten im CoNLL 2003-Format und laden Sie sie im AI Center hoch.
Die Label Studio-Instanz-URL und der API-Schlüssel wurden im bereitgestellten Beispielworkflow zur Verfügung gestellt, um falsche Vorhersagen und Vorhersagen mit geringer Konfidenz zu erfassen.