订阅

UiPath Studio

UiPath Studio 指南

使用数据抓取的示例

为了更好地了解如何利用数据抓取功能,让我们创建一个自动化项目,以从 Wikipedia 提取一些特定信息,并将其写入 Excel 电子表格中。您可以在不同情况下使用这类自动化项目,例如从电子商务网站提取产品及其价格的列表。

📘

备注:

建议您在 Internet Explorer 11 及更高版本、Mozilla Firefox 50 或更高版本或最新版本的 Google Chrome 上运行网页自动化。

假设您想开始研究经济学,并想获取有关该主题的 Wikipedia 文章列表,以及文章 URL 和每篇文章搜索结果中提供的其他信息。您可以这样做:

  1. 打开 Internet Explorer 并导航到 en.wikipedia.org
  2. 在“搜索 Wikipedia”框中,键入“经济学”,然后在显示的下拉列表中单击“包含…经济学”。系统随即会打开一个显示搜索结果的网页。
  3. 在 Studio 中“新建空白流程
  4. 在“活动”面板中,向“设计器”面板添加“打开浏览器活动,并在“Url”字段中粘贴搜索结果网页的 URL。本示例中的 URL 为:"https://en.wikipedia.org/w/index.php?search=economics%20&title=Special%3ASearch&fulltext=1&ns0=1"
  5. 在“设计”功能区选项卡的“向导”组中,单击“数据抓取”。系统随即会显示“提取向导”
  6. 按照向导要求,选择网页中的第一项和最后一项。系统随即会显示“配置列”向导步骤,且您选择的字段也将在网页浏览器中高亮显示。
  7. 选中“提取 URL”复选框,并将列标头名称更改为相关内容,例如“文章标题”和“URL”。
443
  1. 单击“下一步”。系统将在“预览数据”向导步骤中显示预览的数据。注意,由于 Wikipedia 页面使用相对 URL,因此 URL 列亦会包含相对 URL。执行项目后,您可以在 Excel 输出中更正此内容,只需在 URL 列中每个单元格的开头处添加字符串“https://en.wikipedia.org”即可。
1467
  1. 单击“提取相关数据”按钮,以提取文章的其他相关信息。“提取向导”再次启动。
  2. 再次按照向导要求,指明每篇文章的大小和上次编辑日期等相关信息。之后会再次进行到“配置列”步骤。
  3. 将新列标头的名称更改为“其他信息”,然后单击“下一步”。系统随即会在“预览数据”向导步骤中显示相关数据。或者,您也可以将列拖动到相应位置,以更改列的顺序。
  4. 在“最大结果数”中键入 60。Wikipedia 搜索将在每页列出 20 个结果,在本示例中,我们想提取前三页的搜索结果。
827
  1. 单击“完成”。系统将显示“指示下一个链接”窗口,提示您需在数据跨越多个页面的情况下指示要单击的“下一个”按钮或箭头。
  2. 单击“是”,并在 Wikipedia 中选择搜索结果下方的“后续 20 个”按钮。系统随即会更新项目,并在“设计器”面板中显示一个“数据抓取”序列。现在,系统已自动生成“数据表”变量 ExtractDataTable
  3. 在“变量”面板中,将自动生成的 ExtractDataTable 变量的作用域更改为“序列”。如此一来,您便可在其当前作用域之外(即“数据抓取”序列)使用此变量。
  4. 将“Excel 应用程序作用域活动添加到“数据抓取”序列下。
  5. 前往“Excel 应用程序作用域”活动的“属性”面板,并在“工作簿路径”字段中键入 "web_scraping.xlsx"。执行项目后,系统将在项目文件夹中创建一个使用此名称的文件,用于存储通过抓取获得的数据。或者,您也可指定本机中已有的文件。
  6. 在“Excel 应用程序作用域”活动的“执行”序列中,添加“写入范围活动,并在“属性”面板中执行下列操作:
  • 在“数据表”字段中,添加 ExtractDataTable 变量。
  • 选中“添加标头”复选框,以在输出中纳入列名称。

项目的最终呈现应如以下屏幕截图所示:

542
  1. F5 执行项目。
  2. 打开第 17 步中定义的 Excel 文件。注意,所有列都已正确填充。
1059

下载示例

2 年前更新


使用数据抓取的示例


建议的编辑仅限用于 API 参考页面

您只能建议对 Markdown 正文内容进行编辑,而不能建议对 API 规范进行编辑。