[1] 0 2 2 4 5 6
и его применение в биоинформатике
Лекция 9
Анастасия Жарикова
27 октября 2023
Вы уже знаете статистику
При защите проекта мы можем спрашивать теорию, нулевые гипотезы тестов, условия применения тестов, …
В качестве дополнительных вопросов могут быть любые вопросы по материалу курса статистики
70% времени - собрать данные в приемлемый для анализа вид
5% времени - применить готовые функции
20% времени - придумать и реализовать наглядную визуализацию
5% времени - подумать о биологии
У вас есть данные
Их можно визуализировать, что-то посчитать
Зачем статистика? И что это такое?
Инструмент познания окружающего мира
Математическая наука о сборе, анализе, интерпретации и представлении данных
Так зачем?
Эксперимент: предполагает воздействие
Наблюдение: сбор данных без вмешательства и влияния
Помогает ли диета?
Новое лекарство лучше старого?
Влияют ли прогулки на продолжительность жизни?
Какой сервис доставки лучше?
Кошек или собак предпочитают в качестве домашних животных в Москве?
Какой средний вес у мопсов?
Кто больше времени уделяет спорту:
женщины или мужчины?
Способ 1: выяснить у всех женщин и мужчин, насколько активный образ жизни они ведут
Способ 2: набрать репрезентативную выборку и выяснить их спортивную активность
Сколько людей набрать?
Кого брать?
Как вообще выбирать людей?
Как оценивать спортивную активность?
Хотим получить знание о генеральной совокупности, т.е. о всех возможных участниках, которых касается наш опрос или эксперимент
Исследовать генеральную совокупность долго, дорого и часто просто невозможно
Решение: набрать такую выборку, чтобы по результатам исследования этой выборки можно было бы судить о всей генеральной совокупности
При планировании исследования важно понимать, какие именно объекты составляют для этого исследования генеральную совокупность.
От этого зависит стратегия составления репрезентативной выборки
Простая случайная выборка
Кластерная случайная выборка
Стратифицированная случайная выборка
Систематическая выборка
…
Каждый элемент генеральной совокупности имеет равный шанс попасть в выборку
Разбиваем генеральную совокупность на кластеры
Случайным образом отбираем несколько кластеров
Включаем ВСЕХ участников этого кластера
Больше подходит для однородной генеральной совокупности
Разбиваем генеральную совокупность на кластеры
Случайным образом из каждого кластера отбираем случайных участников
Больше подходит для неоднородной генеральной совокупности
Упорядочиваем всех членов генеральной совокупности в некотором порядке (по алфавиту, по возрасту, …)
Выбираем случайным образом начальную точку
Отбираем каждого n-ного участника
Стоим у дверей факультета и опрашиваем прохожих
Просим подписчиков заполнить анкету
Отбираем несколько человек для начала исследования и просим их поспособствовать дальнейшему набору
Решаем, кто нам нужен, и набираем таких людей
Исследовать только интервал, укладывающийся в теорию
Ошибка выжившего
Некорректная “удобная” выборка
Ошибка меткого стрелка
Участники, попавшие в выборку, значительно отличаются от непопавших.
В итоге выборка не репрезентативна.
Пример: В кофейне решили выяснить, кто больше предпочитает новый сорт кофе: “совы” или “жаворонки”. Опрос устроили в 8 утра.
И еще много других ошибок…
Влияет ли занятия спортом на настроение?
Независимая переменная: наличие занятий спортом (количество раз в неделю)
Зависимая переменная: оценка настроения (по какой-то шкале)
Конфаундеры: влияют на значения зависимой переменной, но не контролируются в эксперименте (время года, возраст и пол участников, масса тела, сфера деятельности, ….)
При планировании исследования нужно тщательно продумать, что может влиять на результат
По возможности устранить или снизить эти влияния
Проводят исследование эффективности лекарства. Набирают 2 группы: участникам одной группы дают лекарство, другой - пустышку
Для учета плацебо, т.е. спонтанной реакции мозга на любое воздействие используют ослепление
Слепое исследование: испытуемый не знает, в какой он группе
Двойное слепое исследование: ни испытуемый, ни экспериментатор (врач) не знают, кто в какой группе
Тройное слепое исследование: даже тот, кто обрабатывает данные, не знает, какая группа получала плацебо, а какая лекарство
Для порядковых категориальных данных важен порядок столбцов
Многое зависит от ширины бина
Описательная статистика
Индуктивная статистика
Любой набор данных нужно сначала изучить
список переменных
количество наблюдений
наличие пропущенных значений
распределения численных переменных
композиция категориальных переменных
наличие выбросов
визуализация
Функция от выборки
Характеризуем выборку одним числом
медиана
среднее
мода
дисперсия
разброс
…
\[\overline{X} = {x_{1} + x_{2} + ... + x_{n} \over n}\]
В упорядоченном наборе данных такое число, что половина из элементов набора не меньше этого числа, а половина не больше
N-ный перцентиль - это такое число, что N% элементов выборки не больше N
25-ый перцентиль - 1ый квартиль
75-ый перцентиль - 3ий квартиль
50-ый перцентиль - медиана
Для описания большинства данных можно использовать 95-ый перцентиль
Наиболее частое значение
Мод может быть несколько
Минимум и максимум
Представление числовых данных через квартили
Есть много методов поиска выбросов
Выброс должен быть объясним с точки зрения структуры эксперимента или исследования
Выброс - это ошибка или интересное наблюдение?
При поиске и удалении выбросов важно вовремя остановиться
Обязательно указывайте, что именно отображает ваш барплот:
количество наблюдений в группе
количество каких-то конкретных значений в группе
среднее значение параметра в группе
И обязательно указывайте, что именно отображают “усы”
Есть ли хотя бы одно пропущенное значение?
В каких столбцах и в каких колонках находятся пропущенные значения?
Как вы это узнали?
А если столбцов 1000?
Если вы что-то оцениваете методом глаза, то вы делаете это неправильно
Величина, принимающая в ходе эксперимента то или иное значение
Численные исходы некого случайного эксперимента
Точно сказать, какое это будет значение, мы не можем
Число, выпавшее на шестигранном кубике
Пол ребенка
Время прибытия автобуса
Время работы лампочки
Количество клиентов в день
Число бракованных товаров в партии
Бывают дискретными и непрырывными
Принимает не более, чем счетное множество значений
Распределение можно задавать при помощи таблицы: каждому значению сопоставлена его вероятность.
В сумме вероятности равны единице
Есть 2 случайные величины
Насколько согласовано их изменение?
Мера совместной изменчивости двух случайных величин
Большие значения одной переменной в основном соответствуют большим значениям в другой переменной, аналогично для меньших значений
Не нормированная величина
Зависит от величин переменных
Сложно интерпретировать
Можно отнормировать
Получим корреляцию Пирсона
Безразмерная величина
Изменяется от -1 до 1
Можно применять не только к нормально распределенным данным
Из этого не следует независимость переменных
Нельзя рассуждать о причинно-следственной связи
Корреляция 0,66%
Корреляция 0,99%
Если зависимость не линейная, но монотонная?
Корреляция Спирмена
Считаем корреляцию между рангами наблюдений