studio
2024.10
true
Guía de usuario de Studio
Last updated 30 de oct. de 2024

Ejemplo de uso de la extracción de datos

Para entender mejor cómo se puede aprovechar la funcionalidad de extracción de datos, vamos a crear un proyecto de automatización que extraiga alguna información específica de Wikipedia y la escriba en una hoja de cálculo de Excel. Este tipo de automatización se puede utilizar en diferentes escenarios, como la extracción de listas de productos y sus precios de sitios web de comercio electrónico.

Nota: Se recomienda ejecutar tus automatizaciones web en Internet Explorer 11 y superiores, Mozilla Firefox 50 o superior o la versión más reciente de Google Chrome.

Digamos que deseas empezar a leer sobre economía y quieres obtener una lista de artículos de Wikipedia sobre el tema, junto con sus URL, y la información adicional que se ofrece en los resultados de la búsqueda de cada artículo. Puedes realizar lo siguiente:

  1. Abre Internet Explorer y navega hasta es.wikipedia.org.
  2. En la casilla Búsqueda de Wikipedia, escribe "economía" y, a continuación, haz clic en "contener... economía" en el desplegable que aparece. A continuación, se abre una página web con los resultados de la búsqueda.
  3. En Studio, crea un Nuevo proceso en blanco.
  4. Desde el panel Actividades, agrega una actividad Abrir Navegador en el panel Diseñador y, en el campo Url, pega la URL de la página web con los resultados de la búsqueda. Para nuestro ejemplo, la URL es: "https://en.wikipedia.org/w/index.php?search=economics%20&title=Special%3ASearch&fulltext=1&ns0=1".
  5. En la pestaña de la cinta de Diseño que se encuentra en el grupo de Asistentes, haz clic en Extracción de datos. Se muestra el Asistente de Extracción.
  6. Al seguir el asistente, selecciona el primer y el último elemento de la página web. Se abre el Asistente de configuración de columnas y los campos seleccionados se resaltan en el navegador web.
  7. Selecciona la casilla Extraer URL y cambia el nombre de los encabezados de las columnas por algo relevante, por ejemplo "Título del artículo" y "URL".


  8. Haz clic en Siguiente. Se muestra una vista previa de datos, en el paso del asistente Vista previa de datos. Ten en cuenta que como la página de Wikipedia utiliza URL relativas, la columna de las URL también contienen URL relativas. Puedes corregir esto en la salida de Excel después de ejecutar el proyecto agregando la cadena "https://es.wikipedia.org" al principio de cada celda de la columna URL.


  9. Haz clic en el botón Extraer datos relacionados para extraer información adicional sobre los artículos. Se inicia de nuevo el Asistente de Extracción.
  10. Volviendo a seguir al asistente, indica la información sobre el tamaño y la fecha de la última edición que está disponible para cada artículo. Se accede de nuevo al paso Configurar columnas.
  11. Modifica el nombre del nuevo encabezado de la columna a "Información adicional" y haz clic en Siguiente. La información se muestra en el paso del Asistente de Vista previa de datos. Opcionalmente, puedes cambiar el orden de las columnas arrastrándolas en su lugar.
  12. En el Número máximo de resultados escribe 60. La búsqueda en Wikipedia muestra 20 resultados por página así que, para nuestro ejemplo, queremos extraer las tres primeras páginas de resultados de la búsqueda.


  13. Haz clic en Finalizar. Aparecerá la ventana Indicar siguiente enlace, en la que se te pide que indiques el botón o la flecha de Siguiente para hacer clic si los datos abarcan más de una página.
  14. Haz clic en y selecciona el botón 20 siguientes en los resultados de búsqueda en Wikipedia. El proyecto se actualiza y se muestra una secuencia de Extracción de datos en el panel del Diseñador. Una variable TablaDeDatos, ExtractDataTable se generó automáticamente.
  15. En el panel de Variables, cambia el campo de la ExtractDataTablevariable generada automáticamente a Secuencia. Realiza esto para que la variable esté disponible fuera de su ámbito actual, la secuencia de Extracción de datos.
  16. Agrega una actividad Campo de Aplicación de Excel en la secuencia Extracción de datos.
  17. En el panel Propiedades de la actividad Ámbito de Aplicación de Excel, en el campo RutaDelLibroDeTrabajo, escribe "web_scraping.xlsx". Al ejecutarse el proyecto, se crea un archivo con este nombre en la carpeta del proyecto para almacenar los datos de la extracción. También puedes indicar un archivo que ya existe en tu ordenador.
  18. En la secuencia Hacer de la actividad Campo de aplicación de Excel, agrega una actividad Escribir rango y en el panel Propiedades:
    • En el campo TablaDeDatos, agrega la variable ExtractDataTable.
    • Selecciona la casilla de verificación AgregarEncabezados para incluir los nombres de las columnas en la salida.

      El proyecto final debería tener el aspecto de la siguiente captura de pantalla:



  19. Para ejecutar el proyecto, presiona la tecla F5.
  20. Abre el archivo de Excel que hayas definido en el paso 17. Asegúrate de que todas las columnas se hayan rellenado correctamente.


¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.