и его применение в биоинформатике
Лекция 3
Анна Валяева
20 сентября 2024
Данные из пакета {palmerpenguins}.
Artwork by @allison_horst
# A tibble: 344 × 8
species island bill_length_mm bill_depth_mm flipper_length_mm body_mass_g
<chr> <chr> <dbl> <dbl> <dbl> <dbl>
1 Adelie Torgersen 39.1 18.7 181 3750
2 Adelie Torgersen 39.5 17.4 186 3800
3 Adelie Torgersen 40.3 18 195 3250
4 Adelie Torgersen NA NA NA NA
5 Adelie Torgersen 36.7 19.3 193 3450
6 Adelie Torgersen 39.3 20.6 190 3650
7 Adelie Torgersen 38.9 17.8 181 3625
8 Adelie Torgersen 39.2 19.6 195 4675
9 Adelie Torgersen 34.1 18.1 193 3475
10 Adelie Torgersen 42 20.2 190 4250
# ℹ 334 more rows
# ℹ 2 more variables: sex <chr>, year <dbl>
Гистограмма
Столбчатая диаграмма
Число бинов - 5
Число бинов - 50
Показывает статистики распределения:
Q1 - 1.5 × IQR
Q3 + 1.5 × IQR
Может быть по-разному в зависимости от используемого инструмента.
+
# ОБЯЗАТЕЛЬНОЕ
ggplot(
data = <DATA>, # данные
mapping = aes(<MAPPINGS>)) + # переменные по осям X, Y, цвет...
<GEOM_FUNCTION>() + # тип графика
# ДОПОЛНИТЕЛЬНОЕ
<SCALE_FUNCTION>() + # трансформация осей
<COORDINATE_FUNCTION>() + # настройка системы координат
<FACET_FUNCTION>() + # разделение графика на панель
<THEME_FUNCTION>() # настройка оформления графика
В ggplot2 есть несколько встроенных тем для оформления графика:
theme_grey()
- стандартная серая темаtheme_bw()
theme_classic()
theme_void()
aes
scale_color_manual()
Цвета можно задать с помощью:
color()
color()[573]
rgb()
rgb(244/255, 164/255, 96/255)
colors()
Показаны первые 125 цветов из 657.
aes
- aestheticsДля разных geom_
функциий набор доступных aes
разный.
Для geom_point()
:
shape
- тип символаcolor
- цвет общий / цвет обводкиfill
- заливкаsize
- размерstroke
- толщина обводкиalpha
- прозрачностьaes
переменные - из разных столбцовИ color
, и fill
для обводки и заливки.
Задать цвет вручную - scale_color_manual()
или scale_fill_manual()
.
element_text()
element_line()
element_rect()
После записи в файл, проверяйте, что все сохранилось правильно. Например, размеры итоговой картинки (height
и width
) могут не подходить для вашего графика - все либо будет слишком мелко, либо элементы будут наезжать друг на друга.
Если не указать plot = p
, то будет сохранен последний нарисованный/выведенный в консоль график.
Более универсальный вариант:
Либо сохраняйте вручную из RStudio.
В панели Plots: Export -> Save as…
geom_point()
geom_line()
geom_histogram()
geom_boxplot()
geom_bar()
и geom_col()
geom_text()
и geom_label()
geom_histogram()
x
- количественный признак, распределение которого изучаемfill
(или color
) можно разделить гистограмму по значениям категориальной переменной на несколько на одном графикеgeom_boxplot()
x
- значения категориальной переменнойy
- количественный признак, распределение которого изучаемfill
(или color
) можно “разбить” ящики с усами по значениям второй категориальной переменнойДавайте посмотрим на встроенный датасет msleep
.
Что он содержит?
Подробную информацию о датасете можно получить в справке: ?msleep
.
Давайте опишем животных из этого датасета с точки зрения их веса.