Nuestros alumnos del MBA en Periodismo de Datos elaboraron una serie de tutoriales como trabajo final en la disciplina Low Code: Transformando datos en pautas sin programación, impartidos por el profesor Adriano Belisário. Este mes podrás ver algunos de sus trabajos y divertirte con los tutoriales que crearon. La primera en la lista es la estudiante Beatriz Pinheiro.
A pesar de la reciente recuperación del fútbol femenino brasileño, con cambios en el calendario, mayor disponibilidad de retransmisiones de partidos y mayor interés de los medios y del público, todavía hay cierto retraso en la profesionalización de este deporte, prohibido por decreto desde hace 40 años. en Brasil. Este retraso se refleja en los registros históricos del fútbol femenino, lo que trae mucho daño a la cobertura periodística, ya que resulta difícil encontrar datos sistematizados que sustenten la elaboración de directrices.
Con este escenario en mente, el objetivo de este tutorial es presentar Web Scraper como una herramienta que puede ayudar a explorar y crear bases de datos más fáciles de usar sobre equipos, jugadores y competiciones, con el fin no sólo de facilitar el trabajo periodístico, sino también de colaborar con registra historia para el desarrollo del fútbol femenino brasileño.
Entendiendo la herramienta
Web Scraper es una extensión de Google Chrome que le permite extraer datos utilizando códigos HTML de sitios web como fuente. Estos códigos estructuran la información del sitio web en elementos, que funcionan como “cuadros” en los que se ordenan los datos. La función del Web Scraper es extraer los datos de estos cuadros y transformarlos en una hoja de cálculo estructurada.
La fuente de datos utilizada en este tutorial será Soccerway Mulheres, un sitio web que reúne estadísticas de partidos de fútbol femenino a nivel mundial e información como: equipos, atletas, campeonatos, partidos, resultados, etc. Para esta práctica, usaremos la tabla del Campeonato Brasileño Femenino A1 - 2020 como ejemplo y extraeremos información sobre todas las atletas que compitieron en la competencia.
La idea que trabajaremos aquí será seleccionar los siguientes datos de todos los jugadores: club, nombre, posición, edad, partidos y goles marcados en el campeonato. Si este proceso se hiciera manualmente, tendríamos que acceder individualmente a la página de cada uno de los 16 equipos, acceder a la página de cada jugador y copiar y pegar la información deseada en una hoja de cálculo.
Además de ser extremadamente laborioso y agotador, este proceso también sería más propenso a errores si se hiciera manualmente, lo que pondría en riesgo todo el análisis de los datos recopilados. Ahí es donde entra Web Scraper, que le permite automatizar los pasos mencionados anteriormente.
Manos a la obra
El primer paso para iniciar el proceso de scraping es instalar Web Scraper, lo que se puede hacer a través de este enlace. Luego, simplemente haga clic en el ícono de extensiones en la esquina superior derecha de Google Chrome y seleccione Web Scraper para activarlo.
Con la extensión instalada y la clasificación del Campeonato Brasileño Femenino abierta, hagamos clic derecho y seleccionemos la Inspeccionar . Observe que se abre una pestaña en la parte inferior de la pantalla, donde se muestra información sobre el
códigos de página. Prestemos atención a la Web Scraper , la última que aparece en el menú, a la derecha.
Con la pestaña Web Scraper abierta, haga clic en el Crear nuevo mapa del sitio y seleccione la crear mapa del sitio . Aparecerán dos campos en blanco: el primero, Nombre del mapa del sitio , que se completará con el nombre de su robot, que extraerá la información. En nuestro caso lo llamaremos “brasileirao-feminino-2020”. aparecerá el campo URL de inicio , en el que definiremos la página de inicio para el raspado de datos. En este ejemplo, la página de clasificación Brasileirão Feminino.
A continuación, definiremos el primer parámetro que será raspado por el robot. Para ello pulsaremos en el Añadir nuevo selector campos Id, Tipo y Seleccionar . El campo Id sirve para nombrar la información que queremos extraer y, en el caso de esta práctica, queremos información de cada uno de los equipos del Brasileirão Feminino, por lo tanto, al selector lo llamaremos “equipos”.
El campo Tipo indica el tipo de elemento del código HTML que será raspado, el cual puede ser texto, enlace, imagen, entre otras opciones que aparecen al hacer clic en el campo. Si observamos la clasificación del Brasileirão Feminino, notamos que cada equipo en la tabla tiene un enlace que dirige a la página individual del equipo. Por tanto, en este paso seleccionaremos la de enlace .
El siguiente paso es activar el de selección y hacer clic en el nombre de cada equipo. Ten en cuenta que el enlace aparece resaltado en un cuadro rojo y, al segundo clic, la propia herramienta ya reconoce la selección que queremos hacer. Comprueba que todo está bien y confirma con el botón verde, una vez seleccionado , que aparece encima de la barra de inspección.
No olvides marcar la Múltiple , para asegurarte de que todos los elementos seleccionados, es decir, todos los equipos, serán reconocidos por el selector. Finalmente, simplemente haga clic en el selector de guardar en la parte inferior de la página y listo, tenemos el primer raspador.
Nuestro objetivo aquí es recopilar información sobre los deportistas de cada equipo, así que accedamos a la página de Corinthians, la primera en la clasificación, a modo de ejemplo, y desplacemos hasta la parte donde está la información de los deportistas.
En la barra de control del Web Scraper, haremos clic en el selector “teams”, ya creado, y repetiremos el proceso anterior, esta vez para cada atleta del equipo: crea un nuevo selector, ingresa el nombre “players” en el campo Id , selecciona nuevamente el tipo de elemento como enlace, para asegurarte de que el robot accederá a las páginas de cada jugador, y pulsa en el botón seleccionar. Luego, simplemente seleccione el nombre de cada jugador y haga clic en finalizar selección, recordando marcar la opción múltiple. Finalmente, guarde el selector.
El siguiente paso es acceder a la página de uno de los deportistas, pulsar en el selector “jugadores” de la barra de control del Web Scraper y repetir el proceso para la información que buscamos. En esta ocasión queremos seleccionar la posición que juega cada atleta, por lo que llamaremos al selector “posición”. Ahora, el tipo de elemento que queremos seleccionar es texto , y no necesitaremos marcar la Múltiple , ya que solo tenemos un bloque de información de interés. Ahora simplemente guarde el selector.
A partir de ahora, el proceso sigue el mismo para el resto de información del deportista que buscamos: edad, partidos y objetivos para la temporada.
Raspando los datos
Una vez hecho esto, ahora es el momento de extraer datos. En la barra de control de Web Scraper, haremos clic en el mapa del sitio brasileirao-feminino-2020 opción de raspado y luego haremos clic en el comenzar a raspar .
Ahora toca descansar, porque el robot ya está funcionando: mira que se abre una nueva ventana del navegador, en la que la herramienta accede a las páginas de cada equipo y de cada atleta del Brasileirão Feminino 2020 para extraer los datos que determinamos.
Cuando finalice el proceso, simplemente haga clic en el Actualizar y Web Scraper mostrará una vista previa de la tabla organizada después de extraer los datos. Ahora, simplemente haga clic nuevamente en el brazilian-feminino-2020 y seleccione la exportar como CSV .
¡Listo! Ahora tenemos la tabla completa, con información de todas las jugadoras que jugaron en el Brasileirão Feminino 2020.
Por favor publique sus comentarios y reseñas