- Notes de publication
- Avant de commencer
- Démarrage
- Projets
- Jeux de données
- Paquets ML
- Pipelines
- Compétences ML
- Journaux ML
- Document Understanding dans AI Center
- Comment
- Utilisez le NER personnalisé avec l'apprentissage continu
- Guide de dépannage de base
Utilisez le NER personnalisé avec l'apprentissage continu
Cet exemple est utilisé pour extraire des produits chimiques selon la catégorie mentionnée dans les documents de recherche. En suivant la procédure ci-dessous, vous extrayez les produits chimiques et les catégorisez en ABRÉVIATION, FAMILLE, FORMULE, IDENTIFIANT, MULTIPLE, SYSTÉMATIQUE, TRIVIA et NO_CLASS.
Cette procédure utilise le package Reconnaissance d'entités nommées personnalisées (Customer Named Entity Recognition). Pour plus d'informations sur le fonctionnement de ce package et son utilisation, consultez Reconnaissance d'entités nommées personnalisées.
Pour cette procédure, nous avons fourni des exemples de fichiers comme suit :
- Ensemble de données d'entraînement pré-labellisé au format CoNLL. Vous pouvez le télécharger ici.
- Ensemble de données de test pré-labellisé. Vous pouvez le télécharger ici.
- Exemple de workflow pour l'extraction de catégories de produits chimiques mentionnés dans les documents de recherche. Vous pouvez le télécharger ici.
Remarque : assurez-vous que les variables suivantes sont renseignées dans l'exemple de fichier :
in_emailAdress
- l'adresse e-mail à laquelle la tâche Action Center sera affectéein_MLSkillEndpoint
- point de terminaison public de la compétence MLin_MLSkillAPIKey
- Clé API de la compétence MLin_labelStudioEndpoint
– facultatif, pour activer la labellisation continue : fournissez l'URL d'importation d'un projet Label Studio
Suivez la procédure ci-dessous pour extraire les produits chimiques des documents de recherche en fonction de leur catégorie.
- Importez l'exemple d'ensemble de données dans AI Center en accédant au menu Ensembles de données ( Datasets ) et en téléchargeant le dossier Train and test à partir de l'échantillon.
- Sélectionnez le package NER personnalisé souhaité dans Paquets ML (ML Packages) > Packages prêts à l'emploi (Out of the Box Packages) > UiPath Language Analysis et créez-le.
- Accédez au menu Pipelines et créez une nouvelle exécution de pipeline complète pour le package créé à l'étape précédente. Pointez sur l'ensemble de données d'entraînement et de test fourni dans l'exemple de fichier.
- Créez une nouvelle compétence ML à l'aide du package généré par le pipeline exécuté à l'étape précédente et déployez-la.
- Une fois la compétence déployée, exploitez-la dans le workflow UiPath Studio fourni. Pour activer la capture de données avec des prédictions faibles, déployez une instance Label Studio et fournissez l'URL de l'instance et la clé API dans l'activité Label Studio du workflow.
Pour démarrer avec Label Studio et exporter des données vers AI Center, suivez les instructions ci-dessous.
- Installez Label Studio sur votre machine locale ou l'instance cloud. Pour ce faire, suivez les instructions détaillées ici.
- Créez un nouveau projet à partir du modèle de reconnaissance d'entité nommée (Named Entity Recognition Template) et définissez vos noms de libellés (Label Names).
- Assurez-vous que les noms de libellés ne comportent pas de caractères spéciaux ou d'espaces. Par exemple, au lieu de
Set Date
, utilisezSetDate
. - Assurez-vous que la valeur de la balise
<Text>
est"$text"
. - Téléchargez les données à l'aide de l'API ici.
Exemple de requête cURL :
curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\) --header 'Content-Type: application/json' \)\) --header 'Authorization: Token <Token>' \)\) --data-raw '[ { "data": { "text": "<Text1>" }, }, { "data": { "text": "<Text2>" } } ]'
curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\) --header 'Content-Type: application/json' \)\) --header 'Authorization: Token <Token>' \)\) --data-raw '[ { "data": { "text": "<Text1>" }, }, { "data": { "text": "<Text2>" } } ]' - Annotez vos données.
- Exportez les données au format CoNLL 2003 et téléchargez-les sur AI Center.
- Fournit l'URL de l'instance Label Studio et la clé API dans l'exemple de workflow fourni afin de capturer des prédictions incorrectes et peu fiables.