Nossos alunos do MBA em Jornalismo de Dados produziram uma série de tutoriais como trabalho final na disciplina Low Code: Transformando dados em pautas sem programar, ministrada pelo professor Adriano Belisário. Este mês você poderá conferir alguns dos trabalhos e se aventurar com os tutoriais elaborados por eles. Hoje você confere o tutorial feito por Mariana Hallal.
A vacinação contra a covid-19 no Brasil começou com os grupos de maior vulnerabilidade à doença ou que estão mais expostos ao vírus. Idosos, pessoas que vivem em instituições de longa permanência, profissionais de saúde e povos indígenas estavam no topo da lista.
Recentemente, em maio, as pessoas com comorbidades começaram a ser contempladas. Veja como descobrir o impacto dessa vacinação no número de pessoas internadas. Para isso, vamos explorar os dados do Sivep-Gripe do Ministério da Saúde no SQL e no Google Sheets.
Passo a passo
1 - Baixe os dados do Ministério da Saúde. Para essa análise, vamos usar apenas os dados de 2021. Clique aqui para baixar a planilha.Para fazer o download, você precisa clicar em “SRAG” > “Explorar” > “Baixar”
2 - Se você nunca usou o SQL, precisa baixar o programa. Vamos usar o DB Browser for SQLite. Faça o download aqui.
3 - No SQL, clique em “Novo banco de dados”, nomeie esse banco de dados como “comorbidade” e salve.
3 - Vai abrir uma janela pedindo que você crie uma tabela. Clique em cancelar porque vamos importar os dados.
4 - Clique em “Arquivo” > “Importar” > “Tabela a partir de arquivo CSV”
5 - Selecione o arquivo que baixamos do Ministério da Saúde, configure a tabela como mostra a imagem e clique em OK
7 - O nome da tabela contém elementos que podem prejudicar a análise, como o hífen (-). Vamos renomear a tabela para eliminar este problema. Clique com o botão direito sobre o nome da tabela e clique em “Modificar tabela”.
8 - Renomeie a tabela como “srag2021” e clique em OK.
9 - Agora vamos partir para a análise. Vamos selecionar as colunas que usaremos. Clique em “Executar SQL”, digite o comando abaixo e aperte o botão de “play”.
SELECT FATOR_RISC, substr (DT_INTERNA, 4, 10) AS mes_interna
FROM srag2021
WHERE CLASSI_FIN = 5
A função SELECT diz ao programa quais colunas queremos. A função FROM diz de qual tabela queremos puxar essas colunas. A função WHERE faz um filtro. Neste caso, queremos apenas as linhas onde a classificação final é 5 (covid).
O termo “substr” no fim da função SELECT serve para cortar caracteres de uma coluna inteira. Vamos aplicá-lo à coluna DT_INTERNA para ficar apenas com o mês e ano de internação - isso vai facilitar a análise.
10 - Essa tabela é a que vamos usar. Por isso, vamos criar uma vista para poder trabalhar melhor com ela. Clique em “Salvar vista de resultados” > “Salvar como vista”. Nomeie essa vista como “fatorderisco”
11 - Dê dois Enters depois da última linha e vamos para mais uma sentença. Nosso objetivo final é descobrir quantos % dos internados apresentavam fator de risco a cada mês. Então vamos pedir ao SQL para contar quantas pessoas com e sem fator de risco foram internadas em cada mês.
SELECT *, count (FATOR_RISC) AS totalfator
FROM fatorderisco
WHERE mes_interna LIKE '%2021%'
GROUP BY mes_interna, FATOR_RISC
Com essa sentença, filtramos só os meses de 2021. Apesar de a planilha, teoricamente, só trazer dados de 2021, há muitos erros de digitação no campo “data” que atrapalham a análise.
Depois de digitar a sentença, selecione-a e clique em “Executar”.
12 - Vamos salvar esse resultado e passar para o Google Sheets. Clique no mesmo botão de salvar vista, escolha “Exportar para CSV”, clique em “save” e nomeie como “fatorderisco”.
13 - Crie uma nova planilha no Google Sheets. Clique em “Arquivo” > “Importar” > “Upload” > “Selecionar um arquivo do seu dispositivo”. Desmarque a caixinha que diz “Converter texto em números, datas e fórmulas” e clique em “Importar dados”.
14 - Clique em “Ver” > “Congelar” > “1 linha” para marcar a primeira linha como cabeçalho.
15 - Selecione a coluna “totalfator”, clique no botão “123” e selecione a opção “0” ou “número”.
16 - Vamos criar uma tabela dinâmica. Clique em “Dados” > “Tabela Dinâmica” > “Criar”. Clique em “Adicionar” ao lado de “Linhas” no menu à esquerda e selecione “mes_interna”.
Clique em “Adicionar” ao lado de “Valores” e selecione “totalfator”. Na aba “Resumir por”, selecione “SUM”.
Copie o resultado e cole somente os valores (CTRL + SHIFT + V) na célula F1 da aba principal.
17 - Na célula D1 da primeira aba, digite “total_por_mes”. Na célula D2, digite a seguinte fórmula: =PROCV(B:B;F:G;2;FALSO).
18 - Dê dois cliques no pontinho azul no canto da célula D2 para aplicar essa informação na coluna inteira.
19 - Na célula E1, digite “porcentagem”. Na célula E2, digite a seguinte fórmula: =C2/D2. Clique no quadradinho azul no canto da célula para aplicar a fórmula a toda a coluna. Selecione toda a coluna E, clique no “123” e selecione porcentagem.
20 - Pronto! Esse é o resultado. Na coluna FATOR_RISC, o número 1 significa “sim, o paciente tem fator e risco” e o número 2 significa “o paciente não tem fator de risco”. Essa informação está no dicionário de dados.
Conseguimos observar que em janeiro 65,6% das mortes aconteceram entre pessoas com fator de risco. Em junho, a porcentagem já caiu para 52,37%. Lembre-se sempre de conversar com um especialista antes de tirar conclusões sobre um banco de dados.
A vacinação de pessoas com comorbidades começou em maio na maior parte dos Estados. Portanto, até o momento, a maior parte dessas pessoas tomou apenas a primeira dose da vacina. Nas próximas semanas, as pessoas com fator de risco devem representar um grupo ainda menor entre os internados. Para filtrar por UF, você pode colocar a UF desejada na cláusula WHERE na primeira sentença no SQL.
Please Post Your Comments & Reviews