用户界面自动化活动

上次更新日期 2025年12月19日

使用数据抓取的示例

为了更好地了解如何利用数据抓取功能，让我们创建一个自动化项目，以从 Wikipedia 提取一些特定信息，并将其写入 Excel 电子表格中。您可以在不同情况下使用这类自动化项目，例如从电子商务网站提取产品及其价格的列表。

注意：建议您在 Internet Explorer 11 及更高版本、Mozilla Firefox 50 或更高版本或最新版本的 Google Chrome 上运行网页自动化。

假设您想开始研究经济学，并想获取有关该主题的 Wikipedia 文章列表，以及文章 URL 和每篇文章搜索结果中提供的其他信息。您可以这样做：

打开 Internet Explorer 并导航到 en.wikipedia.org。
在搜索 Wikipedia 框中，键入“经济学”，然后在显示的下拉列表中单击“包含…经济学”。系统随即会打开一个显示搜索结果的网页。
在 Studio 中，创建新的自动化流程。
在活动面板中，向设计器面板添加打开浏览器活动，并在 Url 字段中粘贴搜索结果网页的 URL。本示例中的 URL 为："https://en.wikipedia.org/w/index.php?search=economics%20&title=Special%3ASearch&fulltext=1&ns0=1"。
在“设计”功能区选项卡的“向导”组中，单击“数据抓取”。系统随即会显示提取向导。
按照向导要求，选择网页中的第一项和最后一项。系统随即会显示配置列向导步骤，且您选择的字段也将在网页浏览器中高亮显示。
选中“提取 URL”复选框，并将列标头名称更改为相关内容，例如“文章标题”和“URL”。
单击“下一步”。系统将在“预览数据”向导步骤中显示预览的数据。注意，由于 Wikipedia 页面使用相对 URL，因此 URL 列亦会包含相对 URL。执行项目后，您可以在 Excel 输出中更正此内容，只需在 URL 列中每个单元格的开头处添加字符串“https://en.wikipedia.org”即可。
单击“提取相关数据”按钮以提取有关文章的其他信息。提取向导将再次启动。
再次按照向导要求，指明每篇文章的大小和上次编辑日期等相关信息。之后会再次进行到配置列步骤。
将新列标头的名称更改为“其他信息”，然后单击“下一步”。系统将在预览数据向导步骤中显示相关数据。或者，您也可以将列拖动到相应位置，以更改列的顺序。
在最大结果数中键入 60。Wikipedia 搜索将在每页列出 20 个结果，在本示例中，我们想提取前三页的搜索结果。
单击“完成”。系统将显示“指示下一个链接”窗口，提示您需在数据跨越多个页面的情况下指示要单击的“下一个”按钮或箭头。
单击“是”，并在 Wikipedia 中选择搜索结果下方的“后续 20 个”按钮。系统随即会更新项目，并在设计器面板中显示一个数据抓取序列。现在，系统已自动生成数据表变量 ExtractDataTable。
在变量面板中，将自动生成的 ExtractDataTable 变量的范围更改为序列。如此一来，您便可在其当前作用域之外（即“数据抓取”序列）使用此变量。
将 Excel 应用程序作用域活动添加到数据抓取序列下。
在“Excel 应用程序作用域”活动的属性面板中，在工作簿路径字段中，键入 "web_scraping.xlsx"。执行项目后，系统将在项目文件夹中创建一个使用此名称的文件，用于存储通过抓取获得的数据。或者，您也可指定本机中已有的文件。
在“Excel 应用程序作用域”活动的“执行”序列中，添加“写入范围”活动，并在“属性”面板中执行下列操作：
- 在数据表字段中，添加 ExtractDataTable 变量。
- 选中“添加标头”复选框，以在输出中纳入列名称。
  
  项目的最终呈现应如以下屏幕截图所示：
按 F5 执行项目。
打开第 17 步中定义的 Excel 文件。注意，所有列都已正确填充。