Nos étudiants du MBA en Data Journalism ont produit une série de tutoriels comme travail final dans la discipline Low Code : Transformer les données en lignes directrices sans programmation, enseigné par le professeur Adriano Belisário. Ce mois-ci, vous pourrez découvrir certains de leurs travaux et vous amuser avec les tutoriels qu'ils ont créés. La première sur la liste est l'étudiante Beatriz Pinheiro.
Malgré le récent revirement du football féminin brésilien, avec des changements dans le calendrier, une plus grande disponibilité des retransmissions des matchs et un intérêt accru de la part des médias et du public, il y a encore un certain retard dans la professionnalisation de ce sport, interdit par décret depuis 40 ans. au Brésil. Ce retard se reflète dans les archives historiques du football féminin, ce qui nuit beaucoup à la couverture journalistique, car il est difficile de trouver des données systématisées pour soutenir l'élaboration de lignes directrices.
En gardant ce scénario à l'esprit, l'objectif de ce didacticiel est de présenter Web Scraper comme un outil pouvant aider à explorer et à créer des bases de données plus conviviales sur les équipes, les joueurs et les compétitions, afin non seulement de faciliter le travail journalistique, mais également de collaborer avec record d'histoire pour le développement du football féminin brésilien.
Comprendre l'outil
Web Scraper est une extension de Google Chrome qui vous permet d'extraire des données en utilisant les codes HTML des sites Web comme sources. Ces codes structurent les informations du site Web en éléments qui fonctionnent comme des « boîtes » dans lesquelles les données sont classées. Le rôle du Web Scraper est d’extraire les données de ces cases et de les transformer en une feuille de calcul structurée.
La source de données utilisée dans ce tutoriel sera Soccerway Mulheres, un site Web qui rassemble des statistiques sur les matchs mondiaux de football féminin et des informations telles que : les équipes, les athlètes, les championnats, les matchs, les résultats, etc. Pour cette pratique, nous utiliserons comme exemple le tableau du Championnat brésilien féminin A1 - 2020 et récupérerons des informations sur tous les athlètes qui ont participé à la compétition.
L'idée sur laquelle nous allons travailler ici sera de sélectionner les données suivantes de tous les joueurs : club, nom, poste, âge, matchs et buts marqués en championnat. Si ce processus était effectué manuellement, il faudrait accéder individuellement à la page de chacune des 16 équipes, accéder à la page de chaque joueur et copier et coller les informations souhaitées dans une feuille de calcul.
En plus d'être extrêmement laborieux et fatiguant, ce processus serait également plus sujet aux erreurs s'il était effectué manuellement, ce qui mettrait en danger l'ensemble de l'analyse des données collectées. C'est là qu'intervient Web Scraper, qui vous permet d'automatiser les étapes mentionnées ci-dessus.
Mains en main
La première étape pour démarrer le processus de scraping consiste à installer Web Scraper, ce qui peut être effectué via ce lien. Ensuite, cliquez simplement sur l'icône des extensions dans le coin supérieur droit de Google Chrome et sélectionnez Web Scraper pour l'activer.
Une fois l'extension installée et le classement du Championnat brésilien féminin ouvert, faisons un clic droit et sélectionnons l' Inspecter . Notez qu'un onglet s'ouvre en bas de l'écran, où les informations sur le
codes de pages. Faisons attention à l' Web Scraper , le dernier qui apparaît dans le menu, à droite.
Avec l'onglet Web Scraper ouvert, cliquez sur le Créer un nouveau plan de site et sélectionnez l' Créer un plan de site . Deux champs vides apparaîtront - le premier, Nom du plan du site , à remplir avec le nom de votre robot, qui récupérera les informations. Dans notre cas, nous le nommerons « brasileirao-feminino-2020 ». URL de démarrage apparaîtra , dans lequel nous définirons la page de démarrage du data scraping. Dans cet exemple, la page de classification Brasileirão Feminino.
Ensuite, nous définirons le premier paramètre à gratter par le robot. Pour ce faire, nous cliquerons sur le Ajouter un nouveau sélecteur champs Id, Type et Select . Le champ Id sert à nommer les informations que nous voulons extraire et, dans le cas de cette pratique, nous voulons des informations sur chacune des équipes du Brasileirão Feminino, nous appellerons donc le sélecteur « équipes ».
Le champ Type indique le type d'élément du code HTML qui sera récupéré, qui peut être du texte, un lien, une image, entre autres options qui apparaissent en cliquant sur le champ. En regardant le classement Brasileirão Feminino, nous remarquons que chaque équipe du tableau est un lien qui dirige vers la page individuelle de l'équipe. Par conséquent, dans cette étape, nous sélectionnerons l’ de lien .
L'étape suivante consiste à activer le de sélection et à cliquer sur le nom de chaque équipe. Notez que le lien est surligné dans un cadre rouge et, dès le deuxième clic, l'outil lui-même reconnaît déjà la sélection que l'on souhaite faire. Vérifiez que tout va bien et confirmez avec le bouton vert, sélection terminée , qui apparaît au-dessus de la barre d'inspection.
N'oubliez pas de cocher l' Multiple , pour vous assurer que tous les éléments sélectionnés, c'est-à-dire toutes les équipes, seront reconnus par le sélecteur. Enfin, cliquez simplement sur le de sélection de sauvegarde en bas de la page et c'est tout, nous avons le premier scraper.
Notre objectif ici est de collecter des informations sur les athlètes de chaque équipe, accédons donc à la page Corinthiens, la première du classement, à titre d'exemple, et faisons défiler jusqu'à la partie où se trouvent les informations des athlètes.
Dans la barre de contrôle de Web Scraper, nous allons cliquer sur le sélecteur « équipes », déjà créé, et répéter le processus précédent, cette fois pour chaque athlète de l'équipe : créer un nouveau sélecteur, saisir le nom « joueurs » dans le champ Id. , sélectionnez à nouveau le type d'élément comme lien, pour vous assurer que le robot accédera aux pages de chaque joueur, et cliquez sur le bouton de sélection. Ensuite, sélectionnez simplement le nom de chaque joueur et cliquez sur Terminer la sélection, en n'oubliant pas de cocher l'option multiple. Enfin, enregistrez le sélecteur.
L'étape suivante consiste à accéder à la page de l'un des athlètes, à cliquer sur le sélecteur « joueurs » dans la barre de contrôle de Web Scraper et à répéter le processus pour les informations que nous recherchons. Cette fois, nous voulons sélectionner la position occupée par chaque athlète, nous nommerons donc le sélecteur « position ». Désormais, le type d'élément que nous voulons sélectionner est texte , et nous n'aurons pas besoin de cocher l' Multiple , puisque nous n'avons qu'un seul bloc d'informations d'intérêt. Maintenant, enregistrez simplement le sélecteur.
Désormais, le processus est le même pour les autres informations sur les athlètes que nous recherchons : âge, matchs et objectifs de la saison.
Gratter les données
Une fois cela fait, il est maintenant temps de récupérer les données. Dans la barre de contrôle de Web Scraper, nous cliquerons sur le du plan du site brasileirao-feminino-2020 option de grattage , puis cliquerons sur le Démarrer le grattage .
Il est maintenant temps de se reposer, car le robot est déjà en train de travailler : voyez qu'une nouvelle fenêtre de navigateur s'ouvre, dans laquelle l'outil accède aux pages de chaque équipe et de chaque athlète du Brasileirão Feminino 2020 pour récupérer les données que nous avons déterminées.
Lorsque le processus est terminé, cliquez simplement sur le d'actualisation et Web Scraper affichera un aperçu du tableau organisé après avoir récupéré les données. Maintenant, cliquez simplement à nouveau sur le brazilian-feminino-2020 et sélectionnez l' d'exportation au format CSV .
Prêt! Nous avons maintenant le tableau complet, avec des informations sur tous les joueurs qui ont joué au Brasileirão Feminino 2020.
Veuillez publier vos commentaires et critiques