studio
2024.10
true
Studio-Benutzerhandbuch
Last updated 30. Okt. 2024

Beispiel der Verwendung von Data-Scraping

Um ein besseres Verständnis der Vorteile der Datenextraktionsfunktion zu erhalten, erstellen wir ein Automatisierungsprojekt, das einige spezifische Informationen aus Wikipedia extrahiert und in eine Excel-Tabelle schreibt. Sie können diese Art der Automatisierung in verschiedenen Szenarien einsetzen, wie z. B. das Extrahieren von Produktlisten und deren Preisen aus E-Commerce-Websites.

Hinweis: Es wird empfohlen, die Web-Automatisierung im Internet Explorer 11 oder höher, Mozilla Firefox 50 oder höher oder der neuesten Version von Google Chrome auszuführen.

Nehmen wir an, Sie möchten sich über Wirtschaftsthemen informieren und eine Liste von Wikipedia-Artikeln zu diesem Thema zusammen mit ihren URLs und den zusätzlichen Informationen erstellen, die in den Suchergebnissen zu jedem Artikel angegeben sind. Dazu gehen Sie folgendermaßen vor:

  1. Öffnen Sie Internet Explorer, und navigieren Sie zu en.wikipedia.org.
  2. Geben Sie im Feld Wikipedia durchsuchen den Begriff „economics“ ein, und klicken Sie in der Dropdownliste, die sich daraufhin öffnet, auf „containing economics“. Eine Webseite mit den Suchergebnissen wird geöffnet.
  3. Erstellen Sie in Studio einen neuen leeren Prozess.
  4. Fügen Sie aus dem Panel Aktivitäten eine Open Browser-Aktivität zum Panel Designer hinzu, und fügen Sie in das Feld URL die URL der Webseite mit den Suchergebnissen ein. In unserem Beispiel lautet die URL: "https://en.wikipedia.org/w/index.php?search=economics%20&title=Special%3ASearch&fulltext=1&ns0=1".
  5. Klicken Sie auf der Menüband-Registerkarte Design in der Gruppe Assistenten auf Datenextraktion. Der Extraktionsassistent wird geöffnet.
  6. Folgen Sie dem Assistenten, und wählen Sie das erste und das letzte Element auf der Webseite aus. Der Assistentenschritt Spalten konfigurieren wird angezeigt, und die von Ihnen ausgewählten Felder werden im Webbrowser hervorgehoben.
  7. Aktivieren Sie das Kontrollkästchen URL extrahieren, und ändern Sie den Namen der Spaltenüberschriften in etwas Relevantes, zum Beispiel „Artikeltitel“ und „URL“.


  8. Klicken Sie auf Weiter. Eine Vorschau der Daten wird im Schritt Vorschau der Daten anzeigen des Assistenten angezeigt. Hinweis: Da die Wikipedia-Seite relative URLs verwendet, enthält die URL-Spalte auch relative URLs. Sie können dies in der Excel-Ausgabe korrigieren, nachdem das Projekt ausgeführt wurde, indem Sie die Zeichenfolge „https://en.wikipedia.org“ am Anfang jeder Zelle in der URL-Spalte hinzufügen.


  9. Klicken Sie auf die Schaltfläche Korrelierte Daten extrahieren, um zusätzliche Informationen über die Artikel zu extrahieren. Der Extraktionsassistent wird erneut gestartet.
  10. Folgen Sie wieder dem Assistenten, und geben Sie die Informationen über die Größe und das Datum der letzten Bearbeitung an, die für jeden Artikel verfügbar sind. Der Schritt Spalten konfigurieren ist erneut erreicht.
  11. Ändern Sie den Namen der neuen Spaltenüberschrift in „Zusätzliche Informationen“, und klicken Sie auf Weiter. Die Daten werden im Schritt Vorschau der Daten anzeigen des Assistenten angezeigt. Optional können Sie die Reihenfolge der Spalten ändern, indem Sie sie an die gewünschte Stelle ziehen.
  12. Geben Sie als maximale Anzahl der Ergebnisse 60 ein. Die Wikipedia-Suche listet 20 Ergebnisse pro Seite auf, und für unser Beispiel möchten wir die ersten drei Seiten der Suchergebnisse extrahieren.


  13. Klicken Sie auf Fertig stellen. Das Fenster Nächsten Link angeben wird angezeigt, und Sie werden aufgefordert, auf die Schaltfläche Weiter oder den Pfeil zum Klicken zu zeigen, wenn sich die Daten über mehr als eine Seite erstrecken.
  14. Klicken Sie auf Ja und wählen Sie die Schaltfläche nächste 20 unterhalb der Suchergebnisse in Wikipedia. Das Projekt wird aktualisiert, und eine Datenextraktions-Sequence wird im Panel Designer angezeigt. Die DataTable-Variable ExtractDataTable wurde automatisch generiert.
  15. Ändern Sie im Panel Variables den Bereich der automatisch generierten Variablen ExtractDataTable in Sequence. Dadurch wird die Variable außerhalb ihres aktuellen Scope, der Datenextraktion-Sequence, verfügbar gemacht.
  16. Fügen Sie unter Datenextraktions-Sequence eine Excel Application Scope-Aktivität hinzu.
  17. Geben Sie im Panel Eigenschaften der Aktivität „Excel Application Scope“ "web_scraping.xlsx" in das Feld WorkbookPath ein. Bei der Projektausführung wird eine Datei mit diesem Namen im Projektordner erstellt, um die Daten aus der Extraktion zu speichern. Alternativ können Sie eine Datei angeben, die bereits auf Ihrer Maschine vorhanden ist.
  18. Fügen Sie in der Ausführen-Sequence der Aktivität Excel Application Scope eine Write Range-Aktivität hin, und im Panel Eigenschaften:
    • Fügen Sie die Variable ExtractDataTable in das Feld Datentabelle ein.
    • Aktivieren Sie das Kontrollkästchen AddHeaders, um die Spaltennamen in die Ausgabe aufzunehmen.

      Das fertige Projekt sollte wie auf dem folgenden Screenshot aussehen:



  19. Drücken Sie F5, um das Projekt auszuführen.
  20. Öffnen Sie die Excel-Datei, die Sie in Schritt 17 definiert haben. Beachten Sie, dass alle Spalten korrekt ausgefüllt sind.


War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten