Guide de l'utilisateur de Document Understanding

PRODUIT :

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Dernière mise à jour 11 nov. 2024

Extracteur d'apprentissage automatique

L'extracteur d'apprentissage machine est un outil d'extraction de données utilisant des modèles d'apprentissage automatique afin d'identifier et de signaler les données ciblées aux fins de l'extraction de données.

Cette activité fonctionne de pair avec les modèles Document Understanding UiPath afin de les utiliser dans vos workflows.

L'approche ML est fortement recommandée pour les documents structurés ou semi-structurés dans lesquels les mises en page des différents fournisseurs de documents varient considérablement. Compte tenu de son approche d'apprentissage automatique, l'extracteur utilise un modèle d'apprentissage automatique entraîné, qui apprend et peut ensuite déduire des valeurs pour les champs ciblés, même à partir de documents et de mises en page qu'il n'avait jamais vus auparavant. En d'autres termes, si les documents ne suivent pas un modèle de texte ou de mise en page, l'extracteur d'apprentissage automatique peut répondre aux besoins de votre cas d'utilisation.

Le modèle d'apprentissage automatique peut être utilisé de plusieurs manières :

avec l'un des points de terminaison publics d'UiPath Document Understanding, si vous souhaitez utiliser des modèles génériques ciblant certains types de documents ; ou alors
avec des modèles d'apprentissage automatique formés sur mesure à partir des modèles UiPath Document Understanding disponibles.

Cet extracteur peut être entraîné/réentraîné. Consultez la section Comment entraîner (How to Train) pour en savoir plus.

Attention : les images avec une résolution inférieure à 50 x 50 pixels ne peuvent pas être traitées, ce qui génère une erreur.

Exigences spécifiques

Vous devez utiliser

l'un des points de terminaison publics de Document Understanding d'UiPath aux fins de l'extraction de données, ou
des modèles d'apprentissage automatique hébergés dans AI Center dans Automation Cloud, ou
des modèles d'apprentissage automatique hébergés dans AI Center sur site, mais sous licence via Automation Cloud – vous devez utiliser votre clé API Automation Cloud Document Understanding.

Pour utiliser l'extracteur d'apprentissage automatique avec une licence sur site, vous devez héberger vos modèles Document Understanding dans votre instance sur site AI Center (installation à vide).

Comment configurer

Configuration de l'activité

Si le point de terminaison que vous utilisez est sous licence via Automation Cloud, vous devez fournir votre clé d'API Cloud Document Understanding.

Si vous utilisez l'extracteur d'apprentissage automatique avec un point de terminaison public UiPath Document Understanding ou avec une compétence ML publique dans AI Center, vous devez configurer l'argument Point de terminaison (Endpoint) de l'activité avec l'URL correspondante.

Si vous utilisez l'extracteur d'apprentissage automatique avec une compétence ML déployée, vous devez configurer l'argument ML Skill de l'activité avec la sélection appropriée dans votre liste de compétences ML hébergée sur AI Center.

Si vous essayez de définir les deux options, une erreur s'affichera soit dans l'assistant de configuration, soit directement dans le workflow :

Configuration des capacités d'extraction ML

Lorsqu'il est déposé pour la première fois dans une activité Étendue d'extraction de données (Data Extraction Scope), l'extracteur d'apprentissage automatique ouvre un assistant de configuration. Le même assistant est disponible si vous ouvrez l'assistant Configurer les extracteurs (Configure Extractors) de l'activité Étendue de l'extraction de données (Data Extraction Scope) et cliquez sur l'icône de configuration sous le nom de l'extracteur.

L'assistant vous permet de saisir un point de terminaison ou une compétence ML, ainsi que de fournir une ApiKey (si nécessaire). Si vous entrez un point de terminaison et une ApiKey, vous devez les saisir sans guillemets et les valeurs ne peuvent pas être des variables.

Si vous le souhaitez, vous pouvez utiliser l'option Mettre à jour les arguments d'activité (Update Activity Arguments) pour pré-remplir les arguments d'activité avec les valeurs ajoutées dans l'assistant.

Lorsque vous cliquez sur l'option Obtenir des capacités (Get Capabilities), l'extracteur d'apprentissage automatique lit et rapporte ses capacités internes (les types de documents et de champs qu'il sait traiter) dans le but de vous aider à configurer correctement l'extraction de données.

Il est recommandé d'utiliser l'assistant des capacités de l'extracteur ML chaque fois que vous modifiez la compétence ML ou le point de terminaison utilisé dans votre workflow afin de garantir que la configuration et le mappage de la taxonomie dans le périmètre d'extraction de données restent valides.

Configuration de l'extraction ML dans l'étendue d'extraction de données

Une fois l'assistant des capacités de l'extracteur ML exécuté, vous remarquerez que l'assistant de configuration des extracteurs ne présente plus de zones de texte pour le mappage de taxonomie, mais des listes déroulantes.

Développez le type de document pour lequel vous souhaitez extraire des données et sélectionnez les champs souhaités en cochant les cases à côté des champs appropriés ainsi qu'en sélectionnant dans la liste déroulante disponible le champ approprié du modèle ML que vous souhaitez mapper à chaque champ. La liste déroulante contient tous les champs que l'extracteur d'apprentissage machine (Machine Learning Extractor) déclare comme capacité d'extraction à l'aide du point de terminaison entré dans l'assistant de l'extracteur d'apprentissage automatique.

Pour vérifier si vous utilisez les dernières fonctionnalités de l'extracteur, vous pouvez cliquer sur Obtenir ou actualiser les capacités de l'extracteur (Get or refresh extractor capabilities) qui ouvre l'assistant Machine Learning Extractor.

Attention : vous ne pouvez pas choisir la même option pour deux champs distincts.

Si vous souhaitez également utiliser les capacités d'entraînement de l'extracteur, il est fortement recommandé de saisir une seule valeur alphanumérique de chaîne dans le champ de configuration Alias d'infrastructure (Framework Alias), puis d'utiliser exactement la même valeur de chaîne dans le champ Alias d'infrastructure correspondant de Tester l'étendue des extracteurs (Train Extractors) pour les outils d'apprentissage nécessitant de recevoir les données d'entraînement complètes.

Sélectionnez le bouton Enregistrer (Save) une fois que toutes les données sont correctement configurées.

Comment entraîner

Utilisez l'activité Outil d'entraînement d'extracteur d'apprentissage automatique (Machine Learning Extractor Trainer) dans un champ d'application Tester l'étendue des extracteurs (Train Extractors) afin de collecter les données d'entraînement de votre instance de modèle d'extracteur d'apprentissage automatique. Les données ainsi collectées peuvent être utilisées dans le cadre de la sélection, puis de l'importation à des fins d'entraînement dans votre instance d'AI Center (sur cloud ou sur site).

Sommaire de la page