Studio
2023.4
False
横幅背景图像
Studio 用户指南
上次更新日期 2024年3月1日

使用数据抓取的示例

为了更好地了解如何利用数据抓取功能,让我们创建一个自动化项目,以从 Wikipedia 提取一些特定信息,并将其写入 Excel 电子表格中。您可以在不同情况下使用这类自动化项目,例如从电子商务网站提取产品及其价格的列表。

注意:建议您在 Internet Explorer 11 及更高版本、Mozilla Firefox 50 或更高版本或最新版本的 Google Chrome 上运行网页自动化。

假设您想开始研究经济学,并想获取有关该主题的 Wikipedia 文章列表,以及文章 URL 和每篇文章搜索结果中提供的其他信息。您可以这样做:

  1. 打开 Internet Explorer 并导航到 en.wikipedia.org
  2. 搜索 Wikipedia 框中,键入“经济学”,然后在显示的下拉列表中单击“包含…经济学”。系统随即会打开一个显示搜索结果的网页。
  3. 在 Studio 中,创建一个 “新的空白流程”
  4. 在“活动”面板中,向“设计器”面板添加“打开浏览器”活动,并在 Url 字段中粘贴搜索结果网页的 URL。本示例中的 URL 为 "https://en.wikipedia.org/w/index.php?search=economics%20&title=Special%3ASearch&fulltext=1&ns0=1"
  5. “设计”功能区选项卡的“向导”组中,单击“数据抓取”。系统随即会显示提取向导
  6. 按照向导要求,选择网页中的第一项和最后一项。系统随即会显示配置列向导步骤,且您选择的字段也将在网页浏览器中高亮显示。
  7. 选中“提取 URL”复选框,并将列标头名称更改为相关内容,例如“文章标题”和“URL”。


  8. 单击“下一步”。系统将在“预览数据”向导步骤中显示预览的数据。注意,由于 Wikipedia 页面使用相对 URL,因此 URL 列亦会包含相对 URL。执行项目后,您可以在 Excel 输出中更正此内容,只需在 URL 列中每个单元格的开头处添加字符串“https://en.wikipedia.org”即可。


  9. 单击“提取相关数据”按钮以提取有关文章的其他信息。提取向导将再次启动。
  10. 再次按照向导要求,指明每篇文章的大小和上次编辑日期等相关信息。之后会再次进行到配置列步骤。
  11. 将新列标头的名称更改为“其他信息”,然后单击“下一步”。系统将在预览数据向导步骤中显示相关数据。或者,您也可以将列拖动到相应位置,以更改列的顺序。
  12. 最大结果数中键入 60。Wikipedia 搜索将在每页列出 20 个结果,在本示例中,我们想提取前三页的搜索结果。


  13. 单击“完成”。系统将显示“指示下一个链接”窗口,提示您需在数据跨越多个页面的情况下指示要单击的“下一个”按钮或箭头。
  14. 单击“是”,并在 Wikipedia 中选择搜索结果下方的“后续 20 个”按钮。系统随即会更新项目,并在设计器面板中显示一个数据抓取序列。现在,系统已自动生成数据表变量 ExtractDataTable
  15. 变量面板中,将自动生成的 ExtractDataTable 变量的范围更改为序列。如此一来,您便可在其当前作用域之外(即“数据抓取”序列)使用此变量。
  16. Excel 应用程序作用域活动添加到数据抓取序列下。
  17. 在“Excel 应用程序作用域”活动的属性面板中,在工作簿路径字段中,键入 "web_scraping.xlsx"。执行项目后,系统将在项目文件夹中创建一个使用此名称的文件,用于存储通过抓取获得的数据。或者,您也可指定本机中已有的文件。
  18. “Excel 应用程序作用域”活动的“执行”序列中,添加“写入范围”活动,并在“属性”面板中执行下列操作:
    • 数据表字段中,添加 ExtractDataTable 变量。
    • 选中“添加标头”复选框,以在输出中纳入列名称。

      项目的最终呈现应如以下屏幕截图所示:



  19. F5 执行项目。
  20. 打开第 17 步中定义的 Excel 文件。注意,所有列都已正确填充。


此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.