Skip to content

Pontuação das escolas públicas do estado de São Paulo

Notifications You must be signed in to change notification settings

icaro87/escolas_sp

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

Dados Escolas Est. de São Paulo

Análise exploratória e inferencial

Icaro Pinheiro - Estatístico e Analista de dados 2022-10-31

1 Contexto

Os dados fornecidos, são de pontuações obtidas das escolas do estado de São Paulo dos anos de 2017 e 2019, separados em dois grupos (0,1).

1.1 Objetivo

Este estudo tem por finalidade construir uma análise estatística de modo a comparar os grupos e os anos dentro dos grupos, sob o ponto de vista das pontuações de cada escola.

2 Pacotes

image

3 Carregando arquivos

image

4 Padronização e limpeza

image

image

5 Transformação

Dados de pontuação.

image

Dados do Inepdata.

image

6 EDA

Vamos explorar os dados para conhecer como estão estruturados.

image

6.1 Escolas e municípios

A quantidade de escolas e municípios envolvidos neste estudo.

Primeiro, olhando o todo.

image

Podemos notar um crescimento no número de escolas avaliadas de um ano para outro na ordem de 50.42%.

Parece que há algumas escolas que não foram avaliadas nos dois anos. Vamos averiguar?

image

Então, foram 1848 escolas avaliadas nos 2 anos. 157 avaliadas apenas em 2017 e 1168 somente em 2019.

6.2 Análise dos grupos

Resumo da nossa variável de interesse.

image

Resumo por grupo e ano. (número de escolas únicas)

image

Highlights:

91,8% avaliações são de escolas do grupo 0 e 8,2% do grupo 1.

A pontuação mínima é zero e a máxima é de 180,45.

Q3 ou tereiro quartil = 55,07, isso significa que 75% das escolas avaliadas em 17/19, tiveram pontuação de até este valor.

A média geral é de 38,31 e mediana é de 35,57. Quando a média é maior que a mediana, indica que há possibilidade da distribuição ter assimetria à direita, que possívelmente há valores discrepantes, que nesse caso podem ser algumas escolas com alta pontuação.

Olhando para as medidas estatísticas por grupo, podemos observar que a pontuação média é melhor no grupo 1, porém com ~ 18% variabilidade maior indicando menor consistência dos dados. Essa variabilidade pode ser explicada pelos valores discrepantes comentado no item anterior.

Quando observamos os grupos por ano, podemos perceber que as pontuações médias melhoram de 2017 para 2019, algo em torno 12%. E variação muda muito pouco de ano contra ano.

6.3 Análise gráfica - Box plot

Entre grupos, independente do ano.

image

Entre os grupos, observamos que o grupo 1 apresenta uma performance discretamente melhor.

Intra grupos (por ano).

image

Olhando para os anos dentro dos grupos, podemos afirmar que houve uma pequena melhora na pontuação das escolas de 2019 em relação a 2017.

Porém, tanto na análise entre grupos e dentro do grupo, essa diferença aparenta não ser estatísticamente significativa. Para tirar a prova, vamos aplicar um teste estatístico de hipótese comparando as médias por grupo e dentro dos grupos.

7 Inferência para duas populações

Para fazer inferência no caso, vamos aplicar o teste t. Esse teste faz a comparação entre as médias de duas populações que podem ser dependentes ou independentes.

Como observamos lá no início deste estudo, temos apenas 1848 escolas com avaliação em 2017 e 2019 do total de 3173, então precisamos separar nossa análise em amostras pareadas e independentes, pois a técnica empregada muda conforme o tipo de amostra que temos disponível.

7.1 Separando as escolas

Vamos começar identificando e separando aquelas com avaliação nos dois períodos e daquelas com avaliação apenas em um deles.

image

image

7.2 Pontuação por grupo e ano

7.2.1 Teste T dependente

Vamos iniciar o teste t de Student para categoria das escolas que foram avaliadas nos dois períodos.

7.2.1.1 Entre anos - Grupo zero

image

Apesar do teste de normalidade não ter apresentado normalidade nos dados, o histograma mostra que a distribuição tem um formato próximo de uma normal, além disso as médias e medianas -2.767 e -2.814 respectivamente, são bem próximos, que reforça a ideia de normalidade.

image

image

Portanto, há diferença estatísticamente significativa ao nível de 5% entre as amostras de 2017 e 2019 do grupo zero.

7.2.1.2 Entre anos - Grupo um

image

image

image

Portanto, há evidência de diferença significativa ao nível de 5% entre as amostras de 2017 e 2019 também do grupo um.

7.2.2 Teste T independente

Agora o teste t para amostras independentes, ou seja, para as escolas que foram avaliadas em 2017 ou 2019.

Primeiramente, vamos salvar os dados em um novo objeto.

image

7.2.2.1 Entre grupos

O teste t para amostras independentes exige uma análise dos pressupostos e que estes sejam validados para garantir a integridade dos resultados.

image

image

image

O pressuposto de normalidade entre grupos não foi atendida, no entanto, o tamanho da amostra é grandemente suficiente para assumirmos que a distribuição dos dados se proxima de uma distribuição normal.

Quanto ao teste, o output nos informa que a estatística t = -2,3535 e um p-valor menor que 5%. Isso nos leva a rejeitar a hipótese nula em favor da alternativa e nos faz concluir que há diferença estatísticamente significativa entre os grupos quanto a pontuação das escolas. Como vimos no gráfico, podemos afirmar que o grupo 1 de escolas obteve melhor pontuação que o grupo 0.

7.3 Pontuação por localização e ano

Neste tópico vamos comparar a pontuação das escolas quanto a localização (rural, urbana). Será que as escolas em locais urbanos tem melhor pontuação?

7.3.1 Cruzando bases

image

7.3.2 Teste T dependente

7.3.2.1 Entre anos - Área Urbana

image

Apesar do teste de normalidade não ter apresentado normalidade nos dados, o histograma mostra que a distribuição tem um formato próximo de uma normal, além disso as médias e medianas -3.149 e -2.942 respectivamente, são bem próximos, que reforça a ideia de normalidade.

image

image

Portanto, há diferença estatisticamente significativa ao nível de 5% entre as amostras de 2017 e 2019 da área urbana.

7.3.2.2 Entre anos - Área Rural

image

image

image

Portanto, não há diferença estatisticamente significativa ao nível de 5% entre as amostras de 2017 e 2019 da área rural.

7.3.3 Teste T independente

7.3.3.1 Entre Áreas

image

image

image

O pressuposto de normalidade entre as áreas não foi atendida, no entanto, o tamanho da amostra é grandemente suficiente para assumirmos que a distribuição dos dados se proxima de uma distribuição normal.

Quanto ao teste, o output nos informa que a estatística t = -3,1186 e um p-valor maior que 5%. Isso implica em não rejeitar a hipótese nula em favor da alternativa e nos faz concluir que há diferença estatísticamente significativa entre as áreas quanto a pontuação das escolas.

8 Resumo de atividades

Vamos listar neste tópico todo o processo analítico realizado.

Captura, carga, transformação, limpeza e padronização.

Análise exploratória dos dados.

Inferência estatística em duas populações (amostras dependentes e independentes).

Conclusão.

9 . Final

Ao fim de estudo, obtivemos os seguintes resultados.

Ano contra ano para ambos os grupos(0,1), a diferença observada foi estatísticamente significativa, ou seja, houve uma melhora importante na pontuação média das escolas de 2017 para 2019.

Entre os grupos(0,1) também tivemos um diferença estatísticamente singificativa e o grupo com melhor performance é o 1.

No ano contra ano apenas para as escolas de área urbana, a diferença observada foi relevante, ponto de vista estatístico.

Entre as áreas(urbana, rural) tivemos um diferença estatísticamente singificativa e as escolas da área urbana tiveram a melhor pontuação média.

10 Links úteis e referências

https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/inep-data

https://www.geeksforgeeks.org/how-to-change-legend-title-in-ggplot2-in-r/

https://www.datanovia.com/en/blog/ggplot-legend-title-position-and-labels/

Morettin, Pedro Alberto, 1942 - Estatística básica / Pedro A. Morettin, Wilton O. Bussab. - 9. ed. São Paulo: Saraiva, 2017.

Alcoforado, Luciane Ferreira - Utilizando a Linguagem R: Conceitos, Mnipulação, Visualização, Modelagem e Elaboração de Relatórios / Luciane Ferreira Alcoforado - Rio de Janeiro: Alta Books, 2021.

About

Pontuação das escolas públicas do estado de São Paulo

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages