Nossos alunos do MBA em Jornalismo de Dados produziram uma série de tutoriais como trabalho final na disciplina Low Code: Transformando dados em pautas sem programar, ministrada pelo professor Adriano Belisário. Este mês você poderá conferir alguns dos trabalhos e se aventurar com os tutoriais elaborados por eles. O primeiro da lista é o da aluna Beatriz Pinheiro.
Apesar da guinada recente no futebol feminino brasileiro, com mudanças no calendário, maior disponibilidade de transmissões de jogos e aumento no interesse da mídia e do público, ainda há certo atraso na profissionalização da modalidade, que foi proibida por decreto durante 40 anos no Brasil. Esse atraso se reflete nos registros históricos do futebol de mulheres, o que traz bastante prejuízo para a cobertura jornalística, já que é difícil encontrar dados sistematizados para embasar a produção de pautas.
Pensando nesse cenário, o objetivo deste tutorial é apresentar o Web Scraper como uma ferramenta que pode auxiliar a explorar e criar bases de dados mais amigáveis sobre equipes, jogadoras e competições, de modo a não apenas facilitar o trabalho jornalístico, mas também colaborar com registros históricos para o desenvolvimento do futebol feminino brasileiro.
Entendendo a ferramenta
O Web Scraper é uma extensão do Google Chrome, que permite extrair dados usando como fonte os códigos HTML dos sites. Esses códigos estruturam as informações dos sites em elementos, que funcionam como “caixas”, nas quais são ordenados os dados. O papel do Web Scraper é extrair os dados dessas caixas e transformá-los em uma planilha estruturada.
A fonte dos dados utilizada neste tutorial será o Soccerway Mulheres, um site que reúne estatísticas de jogos do futebol feminino mundial e informações como: equipes, atletas, campeonatos, jogos, resultados, etc. Para esta prática, vamos usar como exemplo a tabela do Campeonato Brasileiro Feminino A1 - 2020, e raspar informações sobre todas as atletas que disputaram a competição.
A ideia que trabalharemos aqui será de selecionar os seguintes dados de todas as jogadoras: clube, nome, posição, idade, jogos e gols marcados no campeonato. Se esse processo fosse feito manualmente, teríamos de acessar individualmente a página de cada um dos 16 times, entrar na página de cada jogadora e copiar e colar as informações desejadas em uma planilha.
Além de extremamente trabalhoso e cansativo, esse processo também estaria mais sujeito a erros caso feito manualmente, o que colocaria em risco toda a análise dos dados coletados. É aí que entra o Web Scraper, que permite automatizar as etapas mencionadas acima.
Mão na massa
O primeiro passo para iniciar o processo de raspagem é instalar o Web Scraper, o que pode ser feito através desse link. Depois, basta clicar no ícone de extensões, no canto superior direito do Google Chrome e selecionar o Web Scraper para ativá-lo.
Com a extensão instalada e a classificação do Campeonato Brasileiro Feminino aberta, vamos clicar com o botão direito do mouse e selecionar a opção Inspecionar. Perceba que é aberta uma aba na parte de baixo da tela, na qual aparecem informações sobre os
códigos da página. Vamos nos atentar à aba Web Scraper, a última que aparece no menu, à direita.
Com a aba Web Scraper aberta, clique no botão Create new sitemap e selecione a opção create sitemap. Vão aparecer dois campos em branco - o primeiro, Sitemap name, para ser preenchido com o nome do seu robô, que irá raspar as informações. No nosso caso, vamos nomeá-lo de “brasileirao-feminino-2020”. Abaixo, aparecerá o campo Start URL, no qual definiremos a página de partida para a raspagem dos dados. Neste exemplo, a página de classificação do Brasileirão Feminino.
Na sequência, vamos definir o primeiro parâmetro a ser raspado pelo robô. Para isso, vamos clicar no botão Add new selector e trabalhar com os campos Id, Type e Select. O campo Id serve para nomear a informação que queremos extrair e, no caso desta prática, queremos informações de cada uma das equipes do Brasileirão Feminino, portanto, vamos chamar o seletor de “times”.
O campo Type indica qual o tipo de elemento do código HTML será raspado, podendo ser texto, link, imagem, entre outras opções que aparecem ao clicar sobre o campo. Olhando a classificação do Brasileirão Feminino, percebemos que cada time na tabela é um link, que direciona para a página individual da equipe. Portanto, neste passo, vamos selecionar a opção link.
O próximo passo é ativar o botão select e clicar sobre o nome de cada time. Note que o link fica destacado em uma caixinha vermelha e, a partir do segundo clique, a própria ferramenta já reconhece a seleção que queremos fazer. Verifique se está tudo certo e confirme no botão verde, done selecting, que aparece acima da barra de inspeção.
Não se esqueça de marcar a opção Multiple, para garantir que todos os elementos selecionados, isto é, todos os times, serão reconhecidos pelo seletor. Por fim, basta clicar no botão save selector na parte inferior da página e pronto, temos o primeiro raspador.
Nosso objetivo aqui é coletar informações sobre as atletas de cada time, portanto vamos acessar a página do Corinthians, o primeiro na classificação, como exemplo, e rolar até a parte onde estão as informações das atletas.
Na barra de controle do Web Scraper, vamos clicar sobre o seletor “times”, já criado, e repetir o processo anterior, desta vez para cada atleta da equipe: criar novo seletor, colocar o nome “jogadoras” no campo Id, selecionar novamente o tipo de elemento como link, para garantir que o robô vá acessar as páginas de cada jogadora, e clicar no botão select. Em seguida, basta selecionar o nome de cada uma das jogadoras e clicar em done selecting, lembrando de marcar a opção multiple. Por fim, salvar o seletor.
O próximo passo é acessar a página de uma das atletas, clicar sobre o seletor “jogadoras” na barra de controle do Web Scraper, e refazer o processo para as informações que buscamos. Desta vez, queremos selecionar a posição em que cada atleta joga, então vamos nomear o seletor como “posição”. Agora, o tipo de elemento que queremos selecionar é um texto, e não precisaremos marcar a opção Multiple, já que temos apenas um bloco de informações de interesse. Agora é só salvar o seletor.
Daqui em diante, o processo segue o mesmo para as outras informações de atletas que estamos buscando: idade, jogos e gols na temporada.
Raspando os dados
Feito isso, agora é hora da raspagem de dados. Na barra de controle do Web Scraper, vamos clicar no botão sitemap brasileirao-feminino-2020, selecionar a opção scrape, e em seguida, clicar no botão start scraping.
Agora é hora de descansar, porque o robô já está trabalhando: veja que uma nova janela do navegador é aberta, na qual a ferramenta acessa as páginas de cada time e de cada atleta do Brasileirão Feminino 2020 para raspar os dados que determinamos.
Quando terminar o processo, basta clicar no botão refresh, e o Web Scraper mostrará uma prévia da tabela organizada após raspagem dos dados. Agora, basta clicar novamente no botão sitemap brasileirao-feminino-2020 e selecionar a opção export as CSV.
Pronto! Agora já temos a tabela completa, com informações de todas as jogadoras que atuaram no Brasileirão Feminino 2020.
Please Post Your Comments & Reviews