[economy.csv] [empl.txt] [Fetal_Brain_dist.txt] [blogdata.txt]
В файле empl.txt содержится информация о безработице в 10 европейский странах, по состоянию на 1979 год. Данные приведены для стран: B - Бельгия, CH - Швейцария, CS - Чехословакия, D - Германия, GB - Великобритания, GR - Греция, H - Венгрия, S - Швеция, TR - Турция, YU - Югославия. Отличается ли иерархическая кластеризация (используйте евклидово расстояние), проведенная с помощью метода single linkage, от кластеризации с методом complete linkage? А если обрезать дерево так, чтобы осталось 3 кластера? Выберите правильный ответ:
- да, отличается; при обрезании дерева по 3 кластерам - не отличается
- да, отличается; при обрезании дерева по 3 кластерам - тоже отличается
- нет, не отличается; при обрезании дерева по 3 кластерам - не отличается
- нет, не отличается; при обрезании дерева по 3 кластерам - отличается
В файле Fetal_Brain_dist.txt хранится матрица расстояний между геномными разметками. Проведите иерархическую кластеризацию по этой матрице (для этого матрицу нужно преобразовать с помощью функции as.dist(<имя матрицы>)), используйте параметры по умолчанию. Постройте полученное дерево кластеров. Какие утверждения являются верными?
- Дерево содержит два четко различающихся кластера
Разметки H3K27me3 и mRNA-Seq лежат в одном кластере
- Разметка mRNA-Seq лежит на отдельной ветке и не кластеризуется с другими
Используя иерархическую кластеризацию, выявите кластеры в 10 случайно выбранных блогах из данных blogdata.txt. Обратите внимание, что в файле присутсвуют апострофы ('), которые, по умолчанию, трактуются функцией read.table как кавычки (хотя на самом деле таковыми не являются). Установите set.seed(578) и проводите операцию выбора блогов и их кластеризации (используя метод complete) аналогично тому, как это было рассказано на лекции. Получившееся дерево обрежьте по высоте 115. Отметьте правильные ответы среди предложенных.
- блоги разделились на 5 кластеров
- блоги разделились на 6 кластеров
блоги Quick Online Tips и CoolerHeads Prevail находятся в одном кластере
- блоги Official Google Blog и Joel on Software находятся в разных кластерах
в самой большой кластер попадает 6 блогов
В файле economy.csv лежат данные с различными экономическими показалями стран мира. Для того, чтобы скластеризовать страны по совокупности всех показателей, сначала нормализуем данные при помощи фукнции scale. Это нужно для того, чтобы колонки с большими числовыми значениями не вносили больший вклад в расстояние. Установите seed=210653. Для кластеризации используйте алгоритм kmeans, разделите страны на 4 кластера. Какие утверждения являются верными:
- самый большой кластер содержит 69 стран
- Норвегия, Новая Зеландия и Кипр находятся в одном кластере
- Россия и Индия входят в самый большой кластер
- Вьетнам и Китай входят в самый маленький кластер