Exemple d'utilisation de capture de données

Pour mieux comprendre comment profiter de la fonctionnalité d'extraction des données, créons un projet d'automatisation qui extrait des informations spécifiques de Wikipedia et qui les écrit dans un tableur Excel. Vous pouvez utiliser ce type d'automatisation dans des scénarios différents, tels que l'extraction de listes de produits et de leurs prix des sites Web de commerce électronique.

Remarque : il est conseillé d'utiliser Internet Explorer (version 11 ou au-delà), Mozilla Firefox (version 50 ou au-delà), ou Google Chrome (la version la plus récente) pour exécuter vos projets d'automatisation Web.

Disons que vous voulez commencer à étudier les sciences économiques et que vous voulez obtenir une liste d'articles Wikipedia sur le sujet, avec les URL et les informations supplémentaires fournies dans les résultats de la recherche pour chaque article. Vous pouvez procéder comme suit :

Ouvrez Internet Explorer et accédez à en.wikipedia.org.
Dans la case Rechercher dans Wikipedia (Search Wikipedia), entrez « sciences économiques », puis cliquez sur « contenant... sciences économiques » dans le menu déroulant qui s'affiche. Une page Web s'ouvre et affiche les résultats de la recherche.
Dans Studio, créez un Nouveau processus vierge (New Blank Process).
Dans le panneau Activités , ajoutez une activité Ouvrir le navigateur au panneau Designer et, dans le champ Url, collez l'URL de la page Web avec les résultats de la recherche. Dans notre exemple, l'URL est: "https://en.wikipedia.org/w/index.php?search=economics%20&title=Special%3ASearch&fulltext=1&ns0=1".
Dans l'onglet du ruban Conception (Design), groupe Assistants (Wizards), cliquez sur Extraction des données (Data Scraping). L'Assistant d'extraction (Extract Wizard) est affiché.
En suivant l'assistant, sélectionnez les premier et dernier éléments sur la page Web. L'étape de l'assistant Configurer les colonnes (Configure Columns) est affichée et les champs que vous avez sélectionnés sont mis en surbrillance dans le navigateur Web.
Cochez la case Extraire l'URL (Extract URL) et remplacez le nom des en-têtes de colonnes par un terme pertinent, par exemple « Titre de l'article » et « URL ».
Cliquez sur Suivant (Next). Un aperçu des données est affiché dans l'étape de l'assistant Prévisualiser les données (Preview Data). Notez que du fait que la page Wikipedia utilise des URL relatives, la colonne URL contient également ces URL. Vous pouvez corriger cela dans la sortie Excel après l'exécution du projet en ajoutant la chaîne "https://en.wikipedia.org" au début de chaque cellule dans la colonne URL.
Cliquez sur le bouton Extraire les données corrélées (Extract Correlated Data) pour extraire des informations supplémentaires sur les articles. L'Assistant d'extraction (Extract Wizard) redémarre.
En suivant à nouveau l'assistant, indiquez les informations sur la taille et la date de la dernière modification disponible pour chaque article. Vous accédez à nouveau à l'étape Configurer les colonnes (Configure Columns).
Remplacez le nom du nouvel en-tête de colonne par « Informations supplémentaires » et cliquez sur Suivant (Next). Les données sont affichées dans l'étape de l'assistant Prévisualiser les données (Preview Data). Vous pouvez éventuellement modifier l'ordre des colonnes en les faisant glisser en place.
Dans Nombre maximum de résultats (Maximum number of results), entrez 60. La recherche Wikipedia répertorie 20 résultats par page et, pour notre exemple, nous voulons extraire les trois premières pages des résultats de la recherche.
Cliquez sur Terminer (Finish). La fenêtre Indiquer le lien suivant (Indicate Next Link) est affichée et vous invite à indiquer le bouton ou la flèche Suivant (Next) sur lequel vous devez cliquer si les données couvrent plus d'une page.
Cliquez sur Oui (Yes) et sélectionnez le bouton 20 suivant sous les résultats de la recherche dans Wikipedia. Le processus est mis à jour et une séquence Data Scraping s'affiche dans le panneau Designer. Une variable TableDonnées, ExtractDataTable a été générée automatiquement.
Dans le module Variables, modifiez la portée de la variable de la table de données automatiquement créée ExtractDataTable, afin qu'elle s'étende à l'ensemble de la Séquence (Sequence). Faites cela pour rendre la variable disponible en dehors de son étendue actuelle, la séquence Data Scraping .
Ajoutez une activité Excel Application Scope sous la séquence Extraction des données (Data Scraping).
Dans le panneau Propriétés de l'activité Étendue de l'application Excel, dans le champ Chemin du classeur (WorkbookPath), tapez "web_scraping.xlsx". Lors de l'exécution du projet, un fichier portant ce nom est créé dans le dossier du projet pour stocker les données de l'extraction. Vous pouvez également spécifier un fichier qui existe déjà sur votre machine.
Dans la séquence Do de l'activité Excel Application Scope, ajoutez une activité Write Range et dans le panneau Propriétés (Properties) :
- Dans le champ DataTable, ajoutez la variable ExtractDataTable.
- Cochez la case AddHeaders pour inclure les noms de colonnes dans la sortie.
  
  Le projet final doit ressembler à la capture d'écran suivante :
Appuyez sur F5 pour exécuter le projet.
Ouvrez le fichier Excel que vous avez défini à l'étape 17. Remarque : toutes les colonnes sont correctement remplies.