import numpy as np
import pandas as pd
import scipy
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
Вам разрешается пользоваться любыми источниками информации (Python Docs, StackOverflow, etc.), кроме ваших коллег.
Если домашние задания будут значительно совпадать, то они могут быть аннулированы на усмотрение преподавателя.
Задание не должно совпадать с анализом, уже выложенным в Интернет.
Датасет надо выбрать на странице до 23:59:59 10 мая 2021
Проектное домашнее задание нужно отправить на почту python.msu@mail.ru до 23:59:59 22 мая 2021.
Тема письма должна быть "Фамилия Имя - Проект".
К письму нужно прикрепить эту Jupyter-тетрадь с названием "Family_Name_project.ipynb" и ваш файл с датасетом с тем же названием, как вы используете в коде. Файлы должны лежать в zip-архиве в папке "Family_Name". Пример:
Ivanov_Ivan.zip
|-- Ivanov_Ivan
|-- Ivanov_Ivan_project.ipynb
|-- titanic_train.csv
|-- titanic_test.csv # не нужен, если не используется в коде
Творческое задание на навыки работы с библиотекой Pandas.
Что необходимо сделать:
train
и test
, вам обычно нужна только часть train
. Данные должны удовлетворять следующим условиям:test
. В этой части не указан один или несколько признаков (обычно категориальных или числовых). Попробуйте предсказать значения этого пропущенного признака по другой части датасета (train
) с помощью математической модели. Помните, что выполнение этого задания потребует больших временных затрат! Библиотека моделей для обучения называется scikit-learn
. [много баллов :^)]Естественно, некоторые "обязательные" пункты из этого минимума, возможно, не будут иметь смысла для ваших данных, а другие могут, наоборот, быть очень познавательными. Сделайте все, что дает информацию о датасете, и если у вас получится хороший и внятный анализ, то задание будет зачтено. Дополнительные баллы будут ставиться за осмысленный анализ и демонстрацию хорошего владения модулями, (в т.ч. бонус за сторонние модули).
Не стремитесь подогнать ваш анализ под приведенные выше пункты. Можно не делать большинство из них, но вместо этого качественно и вдумчиво проанализировать ваши данные, сделать подходящие иллюстрации и описать наблюдаемые закономерности, проблемы датасета, гипотетические артефакты...
EDA без графиков не принимаются.
Если вы решили выполнять пункт с ML, можете обращаться к преподавателям за советом по поводу выбора модели для ваших данных.
# your code goes here