[1] 0 2 2 4 5 6
и его применение в биоинформатике
Лекция 9
Анастасия Жарикова
1 ноября 2024
Вы уже знаете статистику
При защите проекта мы можем спрашивать теорию, нулевые гипотезы тестов, условия применения тестов, …
В качестве дополнительных вопросов могут быть любые вопросы по материалу курса статистики
0.0000001% времени - спросить у научного руководителя “Что мне делать?”
70% времени - собрать данные в приемлемый для анализа вид
5% времени - применить готовые функции
20% времени - придумать и реализовать наглядную визуализацию
5% времени - подумать о биологии
Про биологию, постановку задачи и цель исследования нужно думать постоянно!!!
У вас есть данные
Их можно визуализировать, что-то посчитать
Зачем статистика? И что это такое?
Инструмент познания окружающего мира
Математическая наука о сборе, анализе, интерпретации и представлении данных
Так зачем?
Эксперимент: предполагает воздействие
Наблюдение: сбор данных без вмешательства и влияния
Помогает ли диета?
Новое лекарство лучше старого?
Влияют ли прогулки на продолжительность жизни?
Какой сервис доставки лучше?
Кошек или собак предпочитают в качестве домашних животных в Москве?
Какой средний вес у мопсов?
Кто больше времени уделяет спорту:
женщины или мужчины?
Способ 1: выяснить у всех женщин и мужчин, насколько активный образ жизни они ведут
Способ 2: набрать репрезентативную выборку и выяснить их спортивную активность
Сколько людей набрать?
Кого брать?
Как вообще выбирать людей?
Как оценивать спортивную активность?
Хотим получить знание о генеральной совокупности, т.е. о всех возможных участниках, которых касается наш опрос или эксперимент
Исследовать генеральную совокупность долго, дорого и часто просто невозможно
Решение: набрать такую выборку, чтобы по результатам исследования этой выборки можно было бы судить о всей генеральной совокупности
При планировании исследования важно понимать, какие именно объекты составляют для этого исследования генеральную совокупность.
От этого зависит стратегия составления репрезентативной выборки
Простая случайная выборка
Кластерная случайная выборка
Стратифицированная случайная выборка
Систематическая выборка
…
Каждый элемент генеральной совокупности имеет равный шанс попасть в выборку
Разбиваем генеральную совокупность на кластеры
Случайным образом отбираем несколько кластеров
Включаем ВСЕХ участников этого кластера
Больше подходит для однородной генеральной совокупности
Разбиваем генеральную совокупность на кластеры
Случайным образом из каждого кластера отбираем случайных участников
Больше подходит для неоднородной генеральной совокупности
Упорядочиваем всех членов генеральной совокупности в некотором порядке (по алфавиту, по возрасту, …)
Выбираем случайным образом начальную точку
Отбираем каждого n-ного участника
Стоим у дверей факультета и опрашиваем прохожих
Просим подписчиков заполнить анкету
Отбираем несколько человек для начала исследования и просим их поспособствовать дальнейшему набору
Решаем, кто нам нужен, и набираем таких людей
Исследовать только интервал, укладывающийся в теорию
Ошибка выжившего
Некорректная “удобная” выборка
Ошибка меткого стрелка
Участники, попавшие в выборку, значительно отличаются от непопавших.
В итоге выборка не репрезентативна.
Пример: В кофейне решили выяснить, кто больше предпочитает новый сорт кофе: “совы” или “жаворонки”. Опрос устроили в 8 утра.
И еще много других ошибок…
Влияет ли занятия спортом на настроение?
Независимая переменная: наличие занятий спортом (количество раз в неделю)
Зависимая переменная: оценка настроения (по какой-то шкале)
Конфаундеры: влияют на значения зависимой переменной, но не контролируются в эксперименте (время года, возраст и пол участников, масса тела, сфера деятельности, ….)
При планировании исследования нужно тщательно продумать, что может влиять на результат
По возможности устранить или снизить эти влияния
Проводят исследование эффективности лекарства. Набирают 2 группы: участникам одной группы дают лекарство, другой - пустышку
Для учета плацебо, т.е. спонтанной реакции мозга на любое воздействие используют ослепление
Слепое исследование: испытуемый не знает, в какой он группе
Двойное слепое исследование: ни испытуемый, ни экспериментатор (врач) не знают, кто в какой группе
Тройное слепое исследование: даже тот, кто обрабатывает данные, не знает, какая группа получала плацебо, а какая лекарство
Для порядковых категориальных данных важен порядок столбцов
Многое зависит от ширины бина
Описательная статистика
Индуктивная статистика
Любой набор данных нужно сначала изучить
список переменных
количество наблюдений
наличие пропущенных значений
распределения численных переменных
композиция категориальных переменных
наличие выбросов
визуализация
Функция от выборки
Характеризуем выборку одним числом
медиана
среднее
мода
дисперсия
разброс
…
\[\overline{X} = {x_{1} + x_{2} + ... + x_{n} \over n}\]
В упорядоченном наборе данных такое число, что половина из элементов набора не меньше этого числа, а половина не больше
N-ный перцентиль - это такое число, что N% элементов выборки не больше N
25-ый перцентиль - 1ый квартиль
75-ый перцентиль - 3ий квартиль
50-ый перцентиль - медиана
Для описания большинства данных можно использовать 95-ый перцентиль
Наиболее частое значение
Мод может быть несколько
Минимум и максимум
Представление числовых данных через квартили
Есть много методов поиска выбросов
Выброс должен быть объясним с точки зрения структуры эксперимента или исследования
Выброс - это ошибка или интересное наблюдение?
При поиске и удалении выбросов важно вовремя остановиться
Обязательно указывайте, что именно отображает ваш барплот:
количество наблюдений в группе
количество каких-то конкретных значений в группе
среднее значение параметра в группе
И обязательно указывайте, что именно отображают “усы”
Есть ли хотя бы одно пропущенное значение?
В каких столбцах и в каких колонках находятся пропущенные значения?
Как вы это узнали?
А если столбцов 1000?
Если вы что-то оцениваете методом глаза, то вы делаете это неправильно
Хотим получить знание о генеральной совокупности, т.е. о всех возможных участниках, которых касается наш опрос или эксперимент
Исследовать генеральную совокупность долго, дорого и часто просто невозможно
Решение: набрать такую выборку, чтобы по результатам исследования этой выборки можно было бы судить о всей генеральной совокупности
Величина, принимающая в ходе эксперимента то или иное значение
Численные исходы некого случайного эксперимента
Точно сказать, какое это будет значение, мы не можем
Число, выпавшее на шестигранном кубике
Пол ребенка
Время прибытия автобуса
Время работы лампочки
Количество клиентов в день
Число бракованных товаров в партии
Бывают дискретными и непрырывными
Принимает не более, чем счетное множество значений
Распределение можно задавать при помощи таблицы: каждому значению сопоставлена его вероятность.
В сумме вероятности равны единице
Принимает значения на \((-\infty; \infty)\)
Параметры: среднее - \(\mu\); дисперсия - \(\sigma^{2}\)
Независимые случайные величины Х и Y распределены нормально с параметрами:
\(\mu_{X}; \sigma^{2}_{X}\) \(\mu_{Y}; \sigma^{2}_{Y}\)
Тогда случаная величина Z = X + Y распределена нормально с параметрами:
\(\mu_{X} + \mu_{Y}; \sigma^{2}_{X} + \sigma^{2}_{Y}\)
Случайна величина X распределена нормально с параметрами:
\(\mu_{X}; \sigma^{2}_{X}\)
Тогда случайная величина \(Z = \frac{X - \mu}{\sigma}\) распределена нормально с параметрами:
\(\mu = 0; \sigma^{2} = 1\)
Есть много (n) независимых случайных величин
Рапределены одинаково, есть матожидание \(\mu\) и дисперсия \(\sigma^{2}\)
\[S_{n} = \sum_{i}X_{i}\]
При очень больших n:
\[\frac{S_{n} - n\mu}{\sigma \sqrt{n}}\]
Выборочное среднее: \(\overline{x} = \frac{\sum x_{i}}{n}\)
Выборочная дисперсия: \(s^{2} = \frac{1}{1-n}\sum(x_{i} - \overline{x})^{2}\)
Выборочное стандартное отклонение: \(s = \sqrt{s^{2}}\)
Есть предположение как устроена генеральная совокупность
Из выборок оцениваем параметры генеральной совокупности
На основании этих оценок хотим делать выводы о генеральной совокупности
Проверять какие-то гипотезы
Выдвигается, чтобы быть отвергнутой
Про неинтересный мир
Ничего не отличается друг от друга, эффекта нет, влияния нет, значение параметров равны нулю и т.д.
Есть 2 группы цыплят, одни сидят на диете, другие - нет.
Гипотезы \(H_{0}\):
среднее веса цыплят из двух групп не отличаются
в среднем вес цыплят из первой группы отличается от веса цыплят из второй группы не более, чем на 20 г
Как правило является отрицанием \(H_{0}\)
Эффект есть, результаты значимы и т.д.
Есть 2 группы цыплят, одни сядт на диете, другие - нет.
\(H_{0}\): среднее веса цыплят из двух групп не отличаются \(H_{1}\): среднее веса цыплят из двух групп отличаются
\(H_{0}\): в среднем вес цыплят из первой группы отличается от веса цыплят из второй группы не более, чем на 20 г \(H_{1}\): в среднем вес цыплят из первой группы отличается от веса цыплят из второй группы более, чем на 20 г
Вероятность наблюдать такой же или более критичный результат при условии верности \(H_{0}\)
Расчитываем на основе выборки
Хотим узнать, влияет ли новая диета на вес людей
Взвешиваем участников в начале исследования и через 60 дней
\(H_{0}\): в среднем вес изменяется не более, чем на 10 кг \(H_{1}\): в среднем вес изменяется более, чем на 10 кг
Получили, что вес изменился на 12 кг
Насколько этот результат значим? Диета влияет?
Получили “вес” нашего наблюдения
Решаем, что делать с нулевой гипотезой
\(H_{0}\) | Верна | Не верна |
---|---|---|
Отклоняется | Ошибка I рода | Верно |
Не отклоняется | Верно | Ошибка II рода |
Сравниваем p-value с каким-то числом
Заклинание: p-value меньше 0.05
Отвергаем гипотезу \(H_{0}\), поддерживая ошибку первого рода на уровне а
Какую долю ложноположительных результатов мы готовы принять
а - уровень значимости
СНАЧАЛА формулирует нулевую и альтернативную гипотезу и выбираем уровень значимости
ЗАТЕМ проводим эксперимент
Сравниваем p-value с уровнем значимости
p-value меньше уровня значимости есть основания отвергнуть \(H_{0}\)
Есть распределенная нормально выборка из генеральной совокупности
Проверяем гипотезу: среднее генеральной совокупности равно заданному числу
Снова есть 3 альтернативы
НО!!!! Одна выборка это скучно
Обычно у нас 2 выборки
Дано: две выборки из разных нормально распределенных генеральных совокупностей
Считаем, что дисперсии генеральных совокупностей не отличаются.
Хотим сравнить средние этих генеральных совокупностей
Количество степеней свободы: n + m - 2
Независимых наблюдений: n + m
Нулевая гипотеза: средние двух выборок не отличаются
\(H_{0}: \mu_{x} - \mu_{y} = 0\)
Альтернативные гипотезы:
\(H_{1}: \mu_{x} - \mu_{y} \not= 0\)
\(H_{1}: \mu_{x} - \mu_{y} > 0\)
\(H_{1}: \mu_{x} - \mu_{y} < 0\)
Нулевая гипотеза: средние двух выборок отличаются на а
\(H_{0}: \mu_{x} - \mu_{y} = а\)
Альтернативные гипотезы:
\(H_{1}: \mu_{x} - \mu_{y} \not= а\)
\(H_{1}: \mu_{x} - \mu_{y} > а\)
\(H_{1}: \mu_{x} - \mu_{y} < а\)
Мы ничего не знаем про дисперсии генеральных совокупностей
“Закручиваем гайки” - уменьшеаем число степеней свободы
Далее - аналогичные рассуждения о нулевых и альтернативных гипотезах
Дано: две выборки из разных генеральных совокупностей
Наблюдения из этих выборок связаны в пары
Пример: измеряем вес крыс до и после диеты
Не важно знать о дисперсиях генеральных совокупностей
Интересно исследовать среднее разниц!
Нулевая гипотеза: среднее разниц двух выборок не отличается от а
\(H_{0}: \mu_{x-y} = а\)
Альтернативные гипотезы:
\(H_{1}: \mu_{x-y} \not= а\)
\(H_{1}: \mu_{x-y} > а\)
\(H_{1}: \mu_{x-y} < а\)
Смоделируйте скошенное распределение любым способом (положите в вектор)
Визуализируйте распределение, выбрав наиболее оптимальный тип графика
Что такое среднее с параметром trim = 0.5?
# A tibble: 3 × 14
Species vars n mean sd median trimmed mad min max range skew
<fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 setosa 1 50 0.246 0.105 0.2 0.238 0 0.1 0.6 0.5 1.18
2 versic… 1 50 1.33 0.198 1.3 1.32 0.222 1 1.8 0.8 -0.0293
3 virgin… 1 50 2.03 0.275 2 2.03 0.297 1.4 2.5 1.1 -0.122
# ℹ 2 more variables: kurtosis <dbl>, se <dbl>
Name | iris |
Number of rows | 150 |
Number of columns | 5 |
_______________________ | |
Column type frequency: | |
factor | 1 |
numeric | 4 |
________________________ | |
Group variables | None |
Variable type: factor
skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
---|---|---|---|---|---|
Species | 0 | 1 | FALSE | 3 | set: 50, ver: 50, vir: 50 |
Variable type: numeric
skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
---|---|---|---|---|---|---|---|---|---|---|
Sepal.Length | 0 | 1 | 5.84 | 0.83 | 4.3 | 5.1 | 5.80 | 6.4 | 7.9 | ▆▇▇▅▂ |
Sepal.Width | 0 | 1 | 3.06 | 0.44 | 2.0 | 2.8 | 3.00 | 3.3 | 4.4 | ▁▆▇▂▁ |
Petal.Length | 0 | 1 | 3.76 | 1.77 | 1.0 | 1.6 | 4.35 | 5.1 | 6.9 | ▇▁▆▇▂ |
Petal.Width | 0 | 1 | 1.20 | 0.76 | 0.1 | 0.3 | 1.30 | 1.8 | 2.5 | ▇▁▇▅▃ |
Отличается ли в среднем длина лепестков у ирисов от 4 см?
Сначала рисуйте!
Какие идеи?
One Sample t-test
data: df$Petal.Length
t = 59.425, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
4.742187 5.069813
sample estimates:
mean of x
4.906
Что не так?
Какая нулевая гипотеза?
One Sample t-test
data: df$Petal.Length
t = 10.974, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 4
95 percent confidence interval:
4.742187 5.069813
sample estimates:
mean of x
4.906
Без интерпретации результата - ответа нет!
Неверная интерпретация - ответа нет!
Больше ли в среднем длина лепестков у ирисов, чем 3 см?
Какая нулевая гипотеза?
Различаются ли в среднем длины лепестков у ирисов видов versicolor и virginica?
Какая нулевая гипотеза?
Теперь визуализируйте правильно
a <- filter(df, Species == 'versicolor')
b <- filter(df, Species == 'virginica')
t.test(a$Petal.Length, b$Petal.Length)
Welch Two Sample t-test
data: a$Petal.Length and b$Petal.Length
t = -12.604, df = 95.57, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.49549 -1.08851
sample estimates:
mean of x mean of y
4.260 5.552
Лучше
Welch Two Sample t-test
data: Petal.Length by Species
t = -12.604, df = 95.57, p-value < 2.2e-16
alternative hypothesis: true difference in means between group versicolor and group virginica is not equal to 0
95 percent confidence interval:
-1.49549 -1.08851
sample estimates:
mean in group versicolor mean in group virginica
4.260 5.552
Теперь визуализируем еще лучше