Skip to content

Latest commit

 

History

History
80 lines (50 loc) · 8.48 KB

README.md

File metadata and controls

80 lines (50 loc) · 8.48 KB

DPO_Python_v2

Материалы по курсу «Python для автоматизации и анализа данных» (НИУ ВШЭ, ЦНО ФКН).

Преподаватель: Ян Пиле

Общая информация:

Каждому занятию соответствует свой порядковый номер. Всего занятий 18 (12 - программирование на Python, 6 - Python для анализа данных). В папке каждого занятия вы найдете блокноты с пройденным на семинаре материалом и ссылки на дополнительные материалы.

Блок 1. Python

1 занятие (12.05.2020)
Гид по git. Стиль PEP8. Основы работы с Jupyter. Целые и вещественные числа, логические переменные. Строки, ввод и форматирование

2 занятие (16.05.2020) Контейнеры в Python: списки, кортежи, множества, словари. Индексация и срезы. Методы строк и списков.

3 занятие (20.05.2020) Регулярные выражения. Использование регулярных выражений для поиска и предобработки текста.

4 занятие (23.05.2020) Цикл for. Применение циклов к строкам, спискам, кортежам и словарям. Альтернатива коду с циклами: списковые включения. Итераторы, генераторы списков.

5 занятие (27.05.2020) Устройство функций в Python. Написание простейших функций. Lambda-функции. Функция map(). Написание сложных функций. генераторы, Декораторы, Рекурсия.

6 занятие (03.06.2020) О-нотация, Эффективность работы кода на примере алгоритмов сортировки. Исключения. Работа с файлами: чтение и запись. Поиск ошибок в коде и отладка.

7 занятие (04.06.2020) Сбор данных: введение в html, web-scraping с BeautifulSoup

8 занятие (06.06.2020) Сбор данных: web-scraping с BeautifulSoup(Продолжение).Продвинутая работа со словарями. Работа с файлами типа JSON и XML, работа с сервисами через API

9 занятие (10.06.2020) Сбор данных:Selenium, Openpyxl - библиотека для работы с Excel-файлами

10 занятие (10.06.2020) "Библиотеки для работы с данными в табличном формате: SQL для Python. Работа с Clickhouse."

11 занятие (17.06.2020) Объектно-ориентированное программирование. Классы. Создание модулей в Python. Введение в среду разработки PyCharm.

12 занятие (24.06.2020) Финальный проект - создание чат-бота в Telegram.

Блок 2. Введение в анализ данных

1 занятие (30.06.2020) Введение в numpy: векторы и матрицы. Математические операции с векторами и матрицами.

2 занятие (01.07.2020) Введение в pandas: работа с данными в табличном виде. Фильтрация и агрегация.

Материалы для тренировки
Ссылки и краткие описания

Формы контроля

В какой-то момент на репозитории появятся папка @Problems. Всего на курсе запланировано 5 дз в блоке "Программирование на Python" (включая финальный проект. Он большой.) и 5 дз в блоке "Python для анализа данных".

Всего на курсе ~ 10 заданий (включая проект), для получения зачета по этой части программы нужно иметь среднюю оценку не менее 4 из 10 (из расчета всех заданий по курсу, не только выполненных).

Лабораторная работа - это формат решения заданий в классе. Это не самостоятельная работа - вы можете задавать преподавателю вопросы по ходу решения. Решенные задачи будут проверяться прямо в классе. Если вы пропустили занятие или не успели сделать нужное количество заданий на семинаре, то всегда можно загрузить файл по ссылке на Dropbox к определенному дедлайну. Ссылка, информация о дедлайне и количестве выполненных заданий, необходимых для зачета по работе, будет публиковаться в конце этого файла + мы будем дублировать информацию в чат группы в Telegram.

Оценки за задания выставляются в 10-балльной шкале. Чтобы получить зачет по курсу/сертификат, необходимо иметь среднюю оценку за задания не ниже 4 баллов (из расчета всех заданий по курсу, не только выполненных).

За сдачу заданий после дедлайна предусмотрен штраф 40% (максимальный балл за задание будет не 10, а 6). Если опоздание более двух недель, задание не проверяется.

Как работать с Github?

Для скачивания файлов с Github необязательно иметь аккаунт, достаточно кликнуть на зеленую кнопку Clone or download в правом верхнем углу, выбрать Download ZIP и распаковать архив. В папке 2020_DPO_PythonProg будут все файлы, загруженные на Github на момент скачивания.

Если файл .ipynb сохраняется как текст или с лишним расширением (например, .txt), то нужно выбрать при сохранении тип файла все файлы, а не текст, или после сохранения убрать вручную расширение, переименовав файл.

Подробнее про работу с GitHub через клиента можно прочитать здесь

А еще очень рекомендую посмотреть вот эту ссылку Здесь в одной статье рассказана бОльшая часть того, что нужно знать про Git.