studio
2022.4
false
Guia do usuário do Studio
Last updated 23 de set de 2024

Exemplo de como usar a extração de dados

Para entender melhor como você pode aproveitar a funcionalidade de extração de dados, vamos criar um projeto de automação que extrai algumas informações específicas da Wikipédia e as escreve em uma planilha do Excel. É possível utilizar esse tipo de automação em diferentes cenários, como extrair listas de produtos e seus preços de sites de e-commerce.

Observação: é recomendável executar suas automações web no Internet Explorer 11 ou superior, Mozilla Firefox 50 ou superior ou na versão mais recente do Google Chrome.

Digamos que você deseja começar a ler sobre economia e quer obter uma lista de artigos da Wikipédia sobre o assunto, com suas URLs e as informações adicionais que são fornecidas nos resultados de pesquisa para cada artigo. Você pode fazer o seguinte:

  1. Abra o Internet Explorer e vá para en.wikipedia.org.
  2. Na caixa Pesquisar Wikipédia, digite "economia" e clique em "contendo... economia" no menu suspenso que aparece. Uma página da web é aberta com os resultados da pesquisa.
  3. No Studio, crie um Novo processo em branco.
  4. A partir do painel de Atividades, adicione uma atividade Open Browser ao painel Designer e, no campo Url, cole o URL da página web com os resultados da pesquisa. No nosso exemplo, a URL é: "https://en.wikipedia.org/w/index.php?search=economics%20&title=Special%3ASearch&fulltext=1&ns0=1".
  5. Na guia Design, da faixa de opções, no grupo Assistentes, clique em Extração de Dados. O Assistente de Extração é exibido.
  6. Seguindo o assistente, selecione o primeiro e o último itens na página web. A etapa do assistente Configurar Colunas é exibida e os campos que você selecionou são destacados no navegador da web.
  7. Selecione a caixa de seleção Extrair URL e altere o nome dos cabeçalhos das colunas para algo relevante, por exemplo, "Título do Artigo" e "URL".


  8. Clique em Avançar. Uma visualização dos dados é exibida na etapa do assistente Visualizar dados. Observe que, como a página da Wikipédia usa URLs relativas, a coluna URL também contém URLs relativas. É possível corrigir isto na saída do Excel após o projeto ser executado ao adicionar a string "https://en.wikipedia.org" no início de cada célula na coluna do URL.


  9. Clique no botão Extrair Dados Correlacionados para extrair informações adicionais sobre os artigos. O Assistente de Extração é iniciado novamente.
  10. Seguindo o assistente novamente, indique as informações sobre o tamanho e a data da última edição que estão disponíveis para cada artigo. Chegamos novamente à etapa Configurar Colunas.
  11. Mude o nome do novo cabeçalho da coluna para "Informações Adicionais" e clique em Avançar. Os dados são exibidos na etapa Visualizar Dados do assistente. Opcionalmente, você pode mudar a ordem das colunas, arrastando-as para onde desejar.
  12. Em Número máximo de resultados, digite 60. A pesquisa da Wikipédia relaciona 20 resultados por página e, para nosso exemplo, queremos extrair as três primeira páginas de resultados da pesquisa.


  13. Clique em Concluir. A janela Indicar próximo link é exibida, solicitando que você indique o botão Avançar ou a seta para clicar se os dados abrangem mais de uma página.
  14. Clique em Sim e selecione o botão próximos 20 abaixo dos resultados de pesquisa na Wikipédia. O projeto é atualizado e uma sequência de Extração de Dados é exibida no painel Designer. Uma variável DataTable ExtractDataTable foi automaticamente gerada.
  15. No painel Variáveis, altere o escopo da ExtractDataTablevariável gerada automaticamente para Sequência. Faça isso para disponibilizar a variável fora de seu escopo atual, a sequência Data Scraping.
  16. Adicione uma atividade Excel Application Scope sob a sequência Data Scraping.
  17. No painel Propriedades da atividade Excel Application Scope, no campo WorkbookPath, digite "web_scraping.xlsx". Na execução do projeto, um arquivo com esse nome é criado na pasta do projeto para armazenar dados da extração. De maneira alternativa, é possível especificar um arquivo que já existe no seu computador.
  18. Na sequência Do da atividade Excel Application Scope, adicione uma atividade Write Range e, no painel Propriedades:
    • No campo DataTable, adicione a variável ExtractDataTable.
    • Selecione a caixa de seleção AddHeaders para incluir os nomes das colunas na saída.

      O projeto final ficará parecido com a seguinte captura de tela:



  19. Pressione F5 para executar o projeto.
  20. Abra o arquivo do Excel que você definiu na etapa 17. Observe que todas as colunas são preenchidas corretamente.


Esta página foi útil?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Uipath Logo White
Confiança e segurança
© 2005-2024 UiPath. Todos os direitos reservados.