1. Описание проекта
2. Какой кейс решаем?
3. Краткая информация о данных
4. Этапы работы над проектом
5. Результат
6. Выводы
Разведовательный анализ базы данных об учениках средней школы
необходимо произвести разведовательный анализ данных, а также произвести первичную очистку данных от выбросов и пропущенных значений.
Вход:
- фрагмент базы данных с информации о жизненных условиях и среднему балу по математике учеников средней школы
- Изучить предоставленный датасет
- Произвести очистку данных от дубликатов
- Произвести анализ числовых признаков, выявить выбросы и очистить данные от них
- Оценить количество пропусков и оценить возможные методы работы с ними
- Отобрать признаки влияющие на ключевой параметр для последюущего включения в модель
В результате проведенной работы отобрано 10 признаков, данные очищены от выбросов и получено два датасета для модели с разным методом очистки от пропусков:
- с удалением - меньше данных, но они чище
- с подстановкой - данных больше, но они менее чистые, тк содержат заглушки, вносящие искажение в исходное распределение
При выполнении проекта закреплены навыки работы с pandas DataFrame, графическими библиотеками для построения графиков, а также навыками разведывательного анализа, выбора подходящих для каждого случая графиков, выявление пропусков, выбросов и их очистка.
Если информация по этому проекту покажется вам интересной или полезной, то я буду очень вам благодарен, если отметите репозиторий и профиль ⭐️⭐️⭐️-дами