Icaro Pinheiro - Estatístico e Analista de dados 2022-10-31
Os dados fornecidos, são de pontuações obtidas das escolas do estado de São Paulo dos anos de 2017 e 2019, separados em dois grupos (0,1).
Este estudo tem por finalidade construir uma análise estatística de modo a comparar os grupos e os anos dentro dos grupos, sob o ponto de vista das pontuações de cada escola.
Dados de pontuação.
Dados do Inepdata.
Vamos explorar os dados para conhecer como estão estruturados.
A quantidade de escolas e municípios envolvidos neste estudo.
Primeiro, olhando o todo.
Podemos notar um crescimento no número de escolas avaliadas de um ano para outro na ordem de 50.42%.
Parece que há algumas escolas que não foram avaliadas nos dois anos. Vamos averiguar?
Então, foram 1848 escolas avaliadas nos 2 anos. 157 avaliadas apenas em 2017 e 1168 somente em 2019.
Resumo da nossa variável de interesse.
Resumo por grupo e ano. (número de escolas únicas)
Highlights:
91,8% avaliações são de escolas do grupo 0 e 8,2% do grupo 1.
A pontuação mínima é zero e a máxima é de 180,45.
Q3 ou tereiro quartil = 55,07, isso significa que 75% das escolas avaliadas em 17/19, tiveram pontuação de até este valor.
A média geral é de 38,31 e mediana é de 35,57. Quando a média é maior que a mediana, indica que há possibilidade da distribuição ter assimetria à direita, que possívelmente há valores discrepantes, que nesse caso podem ser algumas escolas com alta pontuação.
Olhando para as medidas estatísticas por grupo, podemos observar que a pontuação média é melhor no grupo 1, porém com ~ 18% variabilidade maior indicando menor consistência dos dados. Essa variabilidade pode ser explicada pelos valores discrepantes comentado no item anterior.
Quando observamos os grupos por ano, podemos perceber que as pontuações médias melhoram de 2017 para 2019, algo em torno 12%. E variação muda muito pouco de ano contra ano.
Entre grupos, independente do ano.
Entre os grupos, observamos que o grupo 1 apresenta uma performance discretamente melhor.
Intra grupos (por ano).
Olhando para os anos dentro dos grupos, podemos afirmar que houve uma pequena melhora na pontuação das escolas de 2019 em relação a 2017.
Porém, tanto na análise entre grupos e dentro do grupo, essa diferença aparenta não ser estatísticamente significativa. Para tirar a prova, vamos aplicar um teste estatístico de hipótese comparando as médias por grupo e dentro dos grupos.
Para fazer inferência no caso, vamos aplicar o teste t. Esse teste faz a comparação entre as médias de duas populações que podem ser dependentes ou independentes.
Como observamos lá no início deste estudo, temos apenas 1848 escolas com avaliação em 2017 e 2019 do total de 3173, então precisamos separar nossa análise em amostras pareadas e independentes, pois a técnica empregada muda conforme o tipo de amostra que temos disponível.
Vamos começar identificando e separando aquelas com avaliação nos dois períodos e daquelas com avaliação apenas em um deles.
Vamos iniciar o teste t de Student para categoria das escolas que foram avaliadas nos dois períodos.
Apesar do teste de normalidade não ter apresentado normalidade nos dados, o histograma mostra que a distribuição tem um formato próximo de uma normal, além disso as médias e medianas -2.767 e -2.814 respectivamente, são bem próximos, que reforça a ideia de normalidade.
Portanto, há diferença estatísticamente significativa ao nível de 5% entre as amostras de 2017 e 2019 do grupo zero.
Portanto, há evidência de diferença significativa ao nível de 5% entre as amostras de 2017 e 2019 também do grupo um.
Agora o teste t para amostras independentes, ou seja, para as escolas que foram avaliadas em 2017 ou 2019.
Primeiramente, vamos salvar os dados em um novo objeto.
O teste t para amostras independentes exige uma análise dos pressupostos e que estes sejam validados para garantir a integridade dos resultados.
O pressuposto de normalidade entre grupos não foi atendida, no entanto, o tamanho da amostra é grandemente suficiente para assumirmos que a distribuição dos dados se proxima de uma distribuição normal.
Quanto ao teste, o output nos informa que a estatística t = -2,3535 e um p-valor menor que 5%. Isso nos leva a rejeitar a hipótese nula em favor da alternativa e nos faz concluir que há diferença estatísticamente significativa entre os grupos quanto a pontuação das escolas. Como vimos no gráfico, podemos afirmar que o grupo 1 de escolas obteve melhor pontuação que o grupo 0.
Neste tópico vamos comparar a pontuação das escolas quanto a localização (rural, urbana). Será que as escolas em locais urbanos tem melhor pontuação?
Apesar do teste de normalidade não ter apresentado normalidade nos dados, o histograma mostra que a distribuição tem um formato próximo de uma normal, além disso as médias e medianas -3.149 e -2.942 respectivamente, são bem próximos, que reforça a ideia de normalidade.
Portanto, há diferença estatisticamente significativa ao nível de 5% entre as amostras de 2017 e 2019 da área urbana.
Portanto, não há diferença estatisticamente significativa ao nível de 5% entre as amostras de 2017 e 2019 da área rural.
O pressuposto de normalidade entre as áreas não foi atendida, no entanto, o tamanho da amostra é grandemente suficiente para assumirmos que a distribuição dos dados se proxima de uma distribuição normal.
Quanto ao teste, o output nos informa que a estatística t = -3,1186 e um p-valor maior que 5%. Isso implica em não rejeitar a hipótese nula em favor da alternativa e nos faz concluir que há diferença estatísticamente significativa entre as áreas quanto a pontuação das escolas.
Vamos listar neste tópico todo o processo analítico realizado.
Captura, carga, transformação, limpeza e padronização.
Análise exploratória dos dados.
Inferência estatística em duas populações (amostras dependentes e independentes).
Conclusão.
Ao fim de estudo, obtivemos os seguintes resultados.
Ano contra ano para ambos os grupos(0,1), a diferença observada foi estatísticamente significativa, ou seja, houve uma melhora importante na pontuação média das escolas de 2017 para 2019.
Entre os grupos(0,1) também tivemos um diferença estatísticamente singificativa e o grupo com melhor performance é o 1.
No ano contra ano apenas para as escolas de área urbana, a diferença observada foi relevante, ponto de vista estatístico.
Entre as áreas(urbana, rural) tivemos um diferença estatísticamente singificativa e as escolas da área urbana tiveram a melhor pontuação média.
https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/inep-data
https://www.geeksforgeeks.org/how-to-change-legend-title-in-ggplot2-in-r/
https://www.datanovia.com/en/blog/ggplot-legend-title-position-and-labels/
Morettin, Pedro Alberto, 1942 - Estatística básica / Pedro A. Morettin, Wilton O. Bussab. - 9. ed. São Paulo: Saraiva, 2017.
Alcoforado, Luciane Ferreira - Utilizando a Linguagem R: Conceitos, Mnipulação, Visualização, Modelagem e Elaboração de Relatórios / Luciane Ferreira Alcoforado - Rio de Janeiro: Alta Books, 2021.