Домашнее задание №7

ФББ - R - 2023

Автор

Анна Валяева

Дата публикации

13 октября 2023 г.

Дедлайн - 29 октября 2023 23:59

Инструкция

При выполнении заданий используйте средства пакета tidyverse.

Обратите особое внимание на оформление домашнего задания и правила, озвученные на занятии.

Приводите весь код, который вам понадобился для получения ответа.

В файле приведены примеры графиков, которые вы должны получить в задании. Точно воспроизводить их не нужно, они нужны на случай, если вы запутаетесь в задании.

На основании заполненного .Rmd файла создайте .html файл.

Присылать заполненные .Rmd тетрадки и .html файл необходимо через гугл-форму.

Задание 1

Прочитайте данные о динамике количества семей медоносных пчел в разных штатах США. Они доступны по ссылке https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2022/2022-01-11/colony.csv

Изучите датасет!

Что в нем есть:

  • year - год,
  • months - квартал года,
  • state - штат США, либо страна США целиком (“United States”), либо другие страны (“Other States”),
  • colony_n - число пчелиных семей на начало квартала этого года,
  • colony_max - максимальное число семей в этом квартале года,
  • colony_lost - число погибших пчелиных семей,
  • colony_lost_pct - процент семей, которые погибли за этот квартал,
  • colony_added - число новых семей,
  • colony_reno - число обновленных семей,
  • colony_reno_pct - процент обновленных семей.

Постройте график lollipop plot, показывающий количество семей пчел в разных штатах США на начало 2015 года. Удобнее будет расположить штаты по вертикальной оси, а число семей - по горизонтальной оси. Поработайте над оформлением графика: добавьте заголовок графику, подпишите названия осей, добавьте на график цвета.

Сохраните график.

Задание 2

Воспользуйтесь тем же набором данных про пчел, что и в задании 1. Постройте график, который бы показывал, сколько пчелиных семей погибало в течение зимних (January-March) и летних месяцев (July-September) по всем США (удалите из данных 2021 год, так как наблюдения по нему неполные). Можно было бы использовать группированную столбчатую диаграмму для создания такого графика, однако лучше такие данные (два числа - за зиму и лето - которые мы хотим сравнивать) визуализировать с помощью точек, соединенных линией, показывающей разницу между ними (Cleveland dotplot, см. пример графика в google форме). Задайте для зимних и летних значений числа погибших пчелиных семей разные цвета и разукрасьте линии, соединяющие точки, в зависимости от того, летом или зимой погибло больше семей в этом году. Подпишите названия осей, добавьте название графика.

Сохраните график.

Задание 3

Воспользуйтесь тем же набором данных про пчел, что и в задании 1. Постройте тепловую карту, которая бы показывала процент погибших семей (colony_lost_pct) по разным штатам в течение времени. Постройте дендрограмму для штатов. А также разбейте штаты на 4 группы по количеству семей на начало 2015 года (можно разбить на квартили, например, с помощью функции cut_number()). Добавьте эту информацию в качестве аннотации на тепловую карту.

Сохраните график.

Задание 4

Отрисуйте диаграмму Венна, которая бы показывала количества штатов, которые потеряли более 20% пчелиных семей (colony_lost_pct) в 2019, 2020 и 2021 годах. То есть множествами, которые вы сравниваете, будут 3 списка штатов - каждый для своего года.

Сохраните график.

Задание 5

Используйте график Upset для того, чтобы показать количества штатов, которые потеряли более 20% пчелиных семей (colony_lost_pct) за все года наблюдений.

Сохраните график.