Nos étudiants du MBA en Data Journalism ont produit une série de tutoriels comme travail final dans la discipline Low Code : Transformer les données en lignes directrices sans programmation, enseigné par le professeur Adriano Belisário. Ce mois-ci, vous pourrez découvrir certains de leurs travaux et vous amuser avec les tutoriels qu'ils ont créés. Aujourd'hui, vous pouvez consulter le tutoriel réalisé par Mariana Hallal.
La vaccination contre le Covid-19 au Brésil a commencé avec les groupes les plus vulnérables à la maladie ou les plus exposés au virus. Les personnes âgées, les personnes vivant dans des établissements de soins de longue durée, les professionnels de la santé et les autochtones figuraient en tête de liste.
Récemment, en mai, les personnes souffrant de comorbidités ont commencé à être couvertes. Découvrez comment connaître l’impact de cette vaccination sur le nombre de personnes hospitalisées. Pour ce faire, nous explorerons les données Sivep-Gripe du ministère de la Santé en SQL et Google Sheets.
Pas à pas
1 - Téléchargez les données du ministère de la Santé Pour cette analyse, nous utiliserons uniquement les données de 2021. Cliquez ici pour télécharger le tableur . Pour télécharger, vous devez cliquer sur « SRAG » > « Explorer » > « Télécharger ».
2 - Si vous n'avez jamais utilisé SQL, vous devez télécharger le programme. Utilisons DB Browser pour SQLite. Téléchargez ici .
3 - En SQL, cliquez sur « Nouvelle base de données », nommez cette base de données « comorbidité » et enregistrez.
3 - Une fenêtre s'ouvrira vous demandant de créer un tableau. Cliquez sur Annuler car nous allons importer les données.
4 - Cliquez sur « Fichier » > « Importer » > « Tableau à partir d'un fichier CSV »
5 - Sélectionnez le fichier que nous avons téléchargé du ministère de la Santé, configurez le tableau comme indiqué dans l'image et cliquez sur OK
7 - Le nom de la table contient des éléments pouvant nuire à l'analyse, comme le trait d'union (-). Renommons la table pour éliminer ce problème. Faites un clic droit sur le nom de la table et cliquez sur « Modifier la table ».
8 - Renommez la table « srag2021 » et cliquez sur OK.
9 - Passons maintenant à l'analyse. Sélectionnons les colonnes que nous utiliserons. Cliquez sur « Exécuter SQL », tapez la commande ci-dessous et appuyez sur le bouton « play ».
SELECT FACTOR_RISC, substr(DT_INTERNA, 4, 10) AS mes_interna
DE srag2021
OÙ CLASSI_FIN = 5
La fonction SELECT indique au programme quelles colonnes nous voulons. La fonction FROM nous indique de quelle table nous voulons extraire ces colonnes. La fonction WHERE crée un filtre. Dans ce cas, nous voulons uniquement les lignes dont la note finale est de 5 (covid).
Le terme « substr » à la fin de la fonction SELECT est utilisé pour couper des caractères d'une colonne entière. Appliquons-le à la colonne DT_INTERNA pour n'avoir que le mois et l'année d'hospitalisation - cela facilitera l'analyse.
10 - Ce tableau est celui que nous utiliserons. Créons donc une vue pour pouvoir mieux travailler avec elle. Cliquez sur « Enregistrer la vue des résultats » > « Enregistrer sous la vue ». Nommez cette vue « facteur de risque »
11 - Appuyez deux fois sur Entrée après la dernière ligne et passons à une autre phrase. Notre objectif ultime est de savoir combien de % de patients hospitalisés présentaient un facteur de risque chaque mois. Demandons donc à SQL de compter combien de personnes avec et sans facteurs de risque ont été hospitalisées chaque mois.
SELECT *, compte (RISC_FACTOR) AS facteur total
DE facteurderisco
OÙ mes_interna LIKE '%2021%'
GROUPE PAR mois_interne, RISC_FATOR
Avec cette phrase, nous filtrons uniquement les mois de 2021. Bien que la feuille de calcul ne contienne théoriquement que des données de 2021, de nombreuses erreurs de frappe dans le champ « date » gênent l’analyse.
Après avoir tapé la phrase, sélectionnez-la et cliquez sur « Exécuter ».
12 - Enregistrons ce résultat et déplaçons-le vers Google Sheets. Cliquez sur le même bouton Enregistrer la vue, choisissez « Exporter vers CSV », cliquez sur « Enregistrer » et nommez-le « facteur de risque ».
13 - Créez une nouvelle feuille de calcul dans Google Sheets. Cliquez sur « Fichier » > « Importer » > « Télécharger » > « Sélectionner un fichier sur votre appareil ». Décochez la case « Convertir le texte en nombres, dates et formules » et cliquez sur « Importer des données ».
14 - Cliquez sur « Affichage » > « Geler » > « 1 ligne » pour marquer la première ligne comme en-tête.
15 - Sélectionnez la colonne « totalfactor », cliquez sur le bouton « 123 » et sélectionnez l'option « 0 » ou « number ».
16 - Créons un tableau croisé dynamique. Cliquez sur « Données » > « Tableau croisé dynamique » > « Créer ». Cliquez sur « Ajouter » à côté de « Lignes » dans le menu de gauche et sélectionnez « mes_interna ».
Cliquez sur « Ajouter » à côté de « Valeurs » et sélectionnez « facteur total ». Dans l'onglet « Résumer par », sélectionnez « SOMME ».
Copiez le résultat et collez uniquement les valeurs (CTRL + MAJ + V) dans la cellule F1 de l'onglet principal.
17 - Dans la cellule D1 du premier onglet, tapez « total_per_month ». Dans la cellule D2, tapez la formule suivante : =VLOOKUP(B:B;F:G;2;FALSE).
18 - Double-cliquez sur le petit point bleu dans le coin de la cellule D2 pour appliquer ces informations à toute la colonne.
19 - Dans la cellule E1, tapez « pourcentage ». Dans la cellule E2, tapez la formule suivante : =C2/D2. Cliquez sur le carré bleu dans le coin de la cellule pour appliquer la formule à toute la colonne. Sélectionnez toute la colonne E, cliquez sur « 123 » et sélectionnez le pourcentage.
20 - Prêt ! Voilà le résultat. Dans la colonne FACTOR_RISC, le chiffre 1 signifie « oui, le patient a un facteur de risque » et le chiffre 2 signifie « le patient n'a aucun facteur de risque ». Ces informations se trouvent dans le dictionnaire de données .
Nous avons pu observer qu'en janvier 65,6% des décès sont survenus chez des personnes présentant des facteurs de risque. En juin, ce pourcentage était déjà tombé à 52,37 %. N'oubliez jamais de parler à un expert avant de tirer des conclusions sur une base de données.
La vaccination des personnes souffrant de comorbidités a commencé en mai dans la plupart des États. Par conséquent, jusqu’à présent, la plupart de ces personnes n’ont reçu que la première dose du vaccin. Dans les semaines à venir, les personnes présentant des facteurs de risque devraient représenter un groupe encore plus restreint parmi les personnes hospitalisées. Pour filtrer par UF, vous pouvez mettre l'UF souhaité dans la clause WHERE de la première phrase de SQL.
Veuillez publier vos commentaires et critiques