Studio
2020.10
バナーの背景画像
サポート対象外
Studio ガイド
最終更新日 2023年12月20日

データ スクレイピングの使用例

データ スクレイピング機能の利点について理解を深めるため、Wikipedia から特定の情報を抽出して Excel スプレッドシートに書き込むオートメーションを作成してみましょう。製品や価格のリストを eコマース Web サイトから抽出するなど、異なるシナリオでこの種類のオートメーションを使用できます。

注: Web オートメーションは、Internet Explorer 11 以上、Mozilla Firefox 50 以上、または Google Chrome の最新バージョンで実行することを推奨します。

経済学について読み始めて、テーマに関する Wikipedia の記事のリストとその URL と各記事の検索結果で提供される追加情報を取得したいとします。次を行うことができます。

  1. Internet Explorer を開き、en.wikipedia.org にアクセスします。
  2. [Wikipedia 内を検索] ボックスで、「経済学」と入力し、表示されるドロップダウンで「次を含む...経済学」をクリックします。Web ページが開き、検索結果が表示されます。
  3. Studio で、新しい空のプロセスを作成します。
  4. [アクティビティ] パネルからデザイナー パネルに [ブラウザーを開く] アクティビティを追加して、[URL] フィールドに検索結果の Web ページの URL を貼り付けます。この例では、URL は "https://en.wikipedia.org/w/index.php?search=economics%20&title=Special%3ASearch&fulltext=1&ns0=1" です。
  5. [デザイン] リボン タブの [ウィザード] グループで、[データ スクレイピング] を選択します。抽出ウィザードが表示されます。
  6. ウィザードに従って、Web ページ内の最初の項目と最後の項目を選択します。列を設定ウィザードの手順が表示され、選択したフィールドが Web ブラウザーで強調表示されます。
  7. [URL を抽出] チェック ボックスをオンにし、たとえば、「記事タイトル」と「URL」など、関連する何かに列ヘッダーの名前を変更します。


  8. [次へ] をクリックします。データのプレビューが[プレビュー データ] ウィザードの手順で表示されます。Wikipedia ページでは相対 URL が使用されるため、URL 列には相対 URL も含まれています。URL 列の各セルの先頭に文字列「 https://en.wikipedia.org 」を追加することにより、プロジェクトの実行後に Excel 出力でこれを修正できます。


  9. [相関データの抽出] ボタンをクリックして、記事に関する補足情報を抽出します。抽出ウィザードが再び起動します。
  10. ウィザードに従って、各記事で利用可能な最後の編集のサイズと日付に関する情報を示します。再び列の構成手順が表示されます。
  11. 「補足情報」に新しい列ヘッダーの名前を変更し、[次へ] をクリックします。データのプレビュー ウィザードの手順にデータが表示されます。必要に応じて、列を所定の位置にドラッグして、列の順序を変更できます。
  12. [結果の最大数] で 60 と入力します。Wikipedia の検索は、ページごとに 20 件の結果を示し、例では検索結果の最初の 3 ページを抽出します。


  13. [完了] をクリックします。[次のリンクを表示する] ウィンドウが表示され、複数のページにわたる場合に [次へ] ボタンを指示するよう求められます。
  14. [はい] をクリックして、Wikipedia の検索結果の下の [次の 20 件] ボタンを選択します。プロセスが更新され、[データ スクレイピング] シーケンスがデザイナー パネルに表示されます。DataTable 変数 ExtractDataTable が自動的に生成されています。
  15. [変数] パネルで自動的に生成された ExtractDataTable 変数の範囲をシーケンスに変更します。これを行うと、変数を現在の [データ スクレイピング] シーケンスの範囲外で使用できるようになります。
  16. [データ スクレイピング] シーケンスの下に [Excel アプリケーション スコープ] アクティビティを追加します。
  17. [Excel アプリケーション スコープ] アクティビティの [プロパティ] パネルの [ブック パス] フィールドに「"web_scraping.xlsx"」と入力します。プロジェクトの実行時に、この名前のファイルがプロジェクト フォルダーに作成され、スクレイピングからのデータが保存されます。また、マシンに既に存在するファイルを指定することもできます。
  18. [Excel アプリケーション スコープ] アクティビティの [実行] シーケンスで [範囲に書き込み] アクティビティを追加し、[プロパティ] パネルで以下の手順を行います。
    • [データ テーブル] フィールドに ExtractDataTable 変数を追加します。
    • 出力の列名が含まれるように [ヘッダーを追加] チェック ボックスをオンにします。

      最終的なプロジェクトは、次のスクリーンショットのようになります。



  19. F5 キーを押してプロジェクトを実行します。
  20. 手順 17 で定義した Excel ファイルを開きます。すべての列が正しく設定されていることがわかります。


Was this page helpful?

サポートを受ける
RPA について学ぶ - オートメーション コース
UiPath コミュニティ フォーラム
UiPath ロゴ (白)
信頼とセキュリティ
© 2005-2024 UiPath. All rights reserved.