[1] 0 2 2 4 5 6
и его применение в биоинформатике
Лекция 13
Анастасия Жарикова
5 декабря 2025
Кто больше времени уделяет спорту:
женщины или мужчины?
Способ 1: выяснить у всех женщин и мужчин, насколько активный образ жизни они ведут
Способ 2: набрать репрезентативную выборку и выяснить их спортивную активность
Сколько людей набрать?
Кого брать?
Как вообще выбирать людей?
Как оценивать спортивную активность?
Хотим получить знание о генеральной совокупности, т.е. о всех возможных участниках, которых касается наш опрос или эксперимент
Исследовать генеральную совокупность долго, дорого и часто просто невозможно
Решение: набрать такую выборку, чтобы по результатам исследования этой выборки можно было бы судить о всей генеральной совокупности
При планировании исследования важно понимать, какие именно объекты составляют для этого исследования генеральную совокупность.
От этого зависит стратегия составления репрезентативной выборки
Простая случайная выборка
Кластерная случайная выборка
Стратифицированная случайная выборка
Систематическая выборка
…
Каждый элемент генеральной совокупности имеет равный шанс попасть в выборку
Разбиваем генеральную совокупность на кластеры
Случайным образом отбираем несколько кластеров
Включаем ВСЕХ участников этого кластера
Больше подходит для однородной генеральной совокупности
Разбиваем генеральную совокупность на кластеры
Случайным образом из каждого кластера отбираем случайных участников
Больше подходит для неоднородной генеральной совокупности
Упорядочиваем всех членов генеральной совокупности в некотором порядке (по алфавиту, по возрасту, …)
Выбираем случайным образом начальную точку
Отбираем каждого n-ного участника
Стоим у дверей факультета и опрашиваем прохожих
Просим подписчиков заполнить анкету
Отбираем несколько человек для начала исследования и просим их поспособствовать дальнейшему набору
Решаем, кто нам нужен, и набираем таких людей
Исследовать только интервал, укладывающийся в теорию
Ошибка выжившего
Некорректная “удобная” выборка
Ошибка меткого стрелка
Участники, попавшие в выборку, значительно отличаются от непопавших.
В итоге выборка не репрезентативна.
Пример: В кофейне решили выяснить, кто больше предпочитает новый сорт кофе: “совы” или “жаворонки”. Опрос устроили в 8 утра.
И еще много других ошибок…
Влияет ли занятия спортом на настроение?
Независимая переменная: наличие занятий спортом (количество раз в неделю)
Зависимая переменная: оценка настроения (по какой-то шкале)
Конфаундеры: влияют на значения зависимой переменной, но не контролируются в эксперименте (время года, возраст и пол участников, масса тела, сфера деятельности, ….)
При планировании исследования нужно тщательно продумать, что может влиять на результат
По возможности устранить или снизить эти влияния
Проводят исследование эффективности лекарства. Набирают 2 группы: участникам одной группы дают лекарство, другой - пустышку
Для учета плацебо, т.е. спонтанной реакции мозга на любое воздействие используют ослепление
Слепое исследование: испытуемый не знает, в какой он группе
Двойное слепое исследование: ни испытуемый, ни экспериментатор (врач) не знают, кто в какой группе
Тройное слепое исследование: даже тот, кто обрабатывает данные, не знает, какая группа получала плацебо, а какая лекарство
Для порядковых категориальных данных важен порядок столбцов
Многое зависит от ширины бина
Описательная статистика
Индуктивная статистика
Любой набор данных нужно сначала изучить
список переменных
количество наблюдений
наличие пропущенных значений
распределения численных переменных
композиция категориальных переменных
наличие выбросов
визуализация
Функция от выборки
Характеризуем выборку одним числом
медиана
среднее
мода
дисперсия
разброс
…
\[\overline{X} = {x_{1} + x_{2} + ... + x_{n} \over n}\]
В упорядоченном наборе данных такое число, что половина из элементов набора не меньше этого числа, а половина не больше
N-ный перцентиль - это такое число, что N% элементов выборки не больше N
25-ый перцентиль - 1ый квартиль
75-ый перцентиль - 3ий квартиль
50-ый перцентиль - медиана
Для описания большинства данных можно использовать 95-ый перцентиль
Наиболее частое значение
Мод может быть несколько
Минимум и максимум
Представление числовых данных через квартили
Есть много методов поиска выбросов
Выброс должен быть объясним с точки зрения структуры эксперимента или исследования
Выброс - это ошибка или интересное наблюдение?
При поиске и удалении выбросов важно вовремя остановиться
Обязательно указывайте, что именно отображает ваш барплот:
количество наблюдений в группе
количество каких-то конкретных значений в группе
среднее значение параметра в группе
И обязательно указывайте, что именно отображают “усы”
Есть ли хотя бы одно пропущенное значение?
В каких столбцах и в каких колонках находятся пропущенные значения?
Как вы это узнали?
А если столбцов 1000?
Если вы что-то оцениваете методом глаза, то вы делаете это неправильно
Смоделируйте скошенное распределение любым способом (положите в вектор)
Визуализируйте распределение, выбрав наиболее оптимальный тип графика
Что такое среднее с параметром trim = 0.5?
# A tibble: 3 × 14
Species vars n mean sd median trimmed mad min max range skew
<fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 setosa 1 50 0.246 0.105 0.2 0.238 0 0.1 0.6 0.5 1.18
2 versic… 1 50 1.33 0.198 1.3 1.32 0.222 1 1.8 0.8 -0.0293
3 virgin… 1 50 2.03 0.275 2 2.03 0.297 1.4 2.5 1.1 -0.122
# ℹ 2 more variables: kurtosis <dbl>, se <dbl>
| Name | iris |
| Number of rows | 150 |
| Number of columns | 5 |
| _______________________ | |
| Column type frequency: | |
| factor | 1 |
| numeric | 4 |
| ________________________ | |
| Group variables | None |
Variable type: factor
| skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
|---|---|---|---|---|---|
| Species | 0 | 1 | FALSE | 3 | set: 50, ver: 50, vir: 50 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| Sepal.Length | 0 | 1 | 5.84 | 0.83 | 4.3 | 5.1 | 5.80 | 6.4 | 7.9 | ▆▇▇▅▂ |
| Sepal.Width | 0 | 1 | 3.06 | 0.44 | 2.0 | 2.8 | 3.00 | 3.3 | 4.4 | ▁▆▇▂▁ |
| Petal.Length | 0 | 1 | 3.76 | 1.77 | 1.0 | 1.6 | 4.35 | 5.1 | 6.9 | ▇▁▆▇▂ |
| Petal.Width | 0 | 1 | 1.20 | 0.76 | 0.1 | 0.3 | 1.30 | 1.8 | 2.5 | ▇▁▇▅▃ |
Отличается ли в среднем длина лепестков у ирисов от 4 см?
Сначала рисуйте!
Какие идеи?
One Sample t-test
data: df$Petal.Length
t = 59.425, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
4.742187 5.069813
sample estimates:
mean of x
4.906
Что не так?
Какая нулевая гипотеза?
One Sample t-test
data: df$Petal.Length
t = 10.974, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 4
95 percent confidence interval:
4.742187 5.069813
sample estimates:
mean of x
4.906
Без интерпретации результата - ответа нет!
Неверная интерпретация - ответа нет!
Больше ли в среднем длина лепестков у ирисов, чем 3 см?
Какая нулевая гипотеза?
Различаются ли в среднем длины лепестков у ирисов видов versicolor и virginica?
Какая нулевая гипотеза?
Теперь визуализируйте правильно
a <- filter(df, Species == 'versicolor')
b <- filter(df, Species == 'virginica')
t.test(a$Petal.Length, b$Petal.Length)
Welch Two Sample t-test
data: a$Petal.Length and b$Petal.Length
t = -12.604, df = 95.57, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.49549 -1.08851
sample estimates:
mean of x mean of y
4.260 5.552
Лучше
Welch Two Sample t-test
data: Petal.Length by Species
t = -12.604, df = 95.57, p-value < 2.2e-16
alternative hypothesis: true difference in means between group versicolor and group virginica is not equal to 0
95 percent confidence interval:
-1.49549 -1.08851
sample estimates:
mean in group versicolor mean in group virginica
4.260 5.552
Теперь визуализируем еще лучше
Пусть виды ирисов будут “до” обработки супер-средством и “после”.
Влияет ли супер-средство на длину лепестков ирисов?
Визуализируем
t.test(Pair(Petal.Length, Species) ~ 1, df)$p.value -> a
ggpaired(df, x = "Species", y = "Petal.Length",
fill = ("Species"),
add = c('mean', 'jitter'),
palette = c("#9e2a2b", "#62929e"),
line.color = "gray", line.size = 0.4) +
annotate("text", x=1.3, y=7.5,
label = paste('p.value (t.test): ', a, sep = ''), size = 4)Урожайность ячменя в 1931(Y1) и 1932(Y2) годах.
Различается ли урожайность?
Есть ли зависимость между длиной лепестка и длиной чашелистика у ирисов?
Pearson's product-moment correlation
data: iris$Sepal.Length and iris$Petal.Length
t = 21.646, df = 148, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8270363 0.9055080
sample estimates:
cor
0.8717538
Spearman's rank correlation rho
data: iris$Sepal.Length and iris$Petal.Length
S = 66429, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.8818981