UiPath Studio

UiPath Studio 指南

使用数据抓取的示例

为了更好地了解如何利用数据抓取功能,让我们创建一个自动化项目,以从 Wikipedia 提取一些特定信息,并将其写入 Excel 电子表格中。您可以在不同情况下使用这类自动化项目,例如从电子商务网站提取产品及其价格的列表。

Note:

建议您在 Internet Explorer 11 及更高版本、Mozilla Firefox 50 或更高版本或最新版本的 Google Chrome 上运行网页自动化。

假设您想开始研究经济学,并想获取有关该主题的 Wikipedia 文章列表,以及文章 URL 和每篇文章搜索结果中提供的其他信息。您可以这样做:

  1. 打开 Internet Explorer 并导航到 en.wikipedia.org
  2. 在“搜索 Wikipedia”框中,键入“经济学”,然后在显示的下拉列表中单击“包含…经济学”。系统随即会打开一个显示搜索结果的网页。
  3. In Studio, create a New Blank Process.
  4. From the Activities panel, add an Open Browser activity to the Designer panel and, in the Url field, paste the URL of the web page with the search results. In our example, the URL is: "https://en.wikipedia.org/w/index.php?search=economics%20&title=Special%3ASearch&fulltext=1&ns0=1".
  5. 在“设计”功能区选项卡的“向导”组中,单击“数据抓取”。系统随即会显示“提取向导”
  6. 按照向导要求,选择网页中的第一项和最后一项。系统随即会显示“配置列”向导步骤,且您选择的字段也将在网页浏览器中高亮显示。
  7. 选中“提取 URL”复选框,并将列标头名称更改为相关内容,例如“文章标题”和“URL”。
  1. Click Next. A preview of the data is displayed in the Preview Data wizard step. Note that because the Wikipedia page uses relative URLs, the URL column contains relative URLs as well. You can correct this in the Excel output after the project is executed by adding the string "https://en.wikipedia.org" at the beginning of each cell in the URL column.
  1. 单击“提取相关数据”按钮,以提取文章的其他相关信息。“提取向导”再次启动。
  2. 再次按照向导要求,指明每篇文章的大小和上次编辑日期等相关信息。之后会再次进行到“配置列”步骤。
  3. 将新列标头的名称更改为“其他信息”,然后单击“下一步”。系统随即会在“预览数据”向导步骤中显示相关数据。或者,您也可以将列拖动到相应位置,以更改列的顺序。
  4. 在“最大结果数”中键入 60。Wikipedia 搜索将在每页列出 20 个结果,在本示例中,我们想提取前三页的搜索结果。
  1. 单击“完成”。系统将显示“指示下一个链接”窗口,提示您需在数据跨越多个页面的情况下指示要单击的“下一个”按钮或箭头。
  2. 单击“是”,并在 Wikipedia 中选择搜索结果下方的“后续 20 个”按钮。系统随即会更新项目,并在“设计器”面板中显示一个“数据抓取”序列。现在,系统已自动生成“数据表”变量 ExtractDataTable
  3. 在“变量”面板中,将自动生成的 ExtractDataTable 变量的作用域更改为“序列”。如此一来,您便可在其当前作用域之外(即“数据抓取”序列)使用此变量。
  4. Add an Excel Application Scope activity under the Data Scraping sequence.
  5. 前往“Excel 应用程序作用域”活动的“属性”面板,并在“工作簿路径”字段中键入 "web_scraping.xlsx"。执行项目后,系统将在项目文件夹中创建一个使用此名称的文件,用于存储通过抓取获得的数据。或者,您也可指定本机中已有的文件。
  6. In the Do sequence of the Excel Application Scope activity, add a Write Range activity and in the Properties panel:
    • 在“数据表”字段中,添加 ExtractDataTable 变量。
    • 选中“添加标头”复选框,以在输出中纳入列名称。

项目的最终呈现应如以下屏幕截图所示:

  1. F5 执行项目。
  2. 打开第 17 步中定义的 Excel 文件。注意,所有列都已正确填充。

Updated 11 days ago



使用数据抓取的示例


Suggested Edits are limited on API Reference Pages

You can only suggest edits to Markdown body content, but not to the API spec.