2011/8/R/tutorial4 - KodomoWiki

[economy.csv] [empl.txt] [Fetal_Brain_dist.txt] [blogdata.txt]

В файле empl.txt содержится информация о безработице в 10 европейский странах, по состоянию на 1979 год. Данные приведены для стран: B - Бельгия, CH - Швейцария, CS - Чехословакия, D - Германия, GB - Великобритания, GR - Греция, H - Венгрия, S - Швеция, TR - Турция, YU - Югославия. Отличается ли иерархическая кластеризация (используйте евклидово расстояние), проведенная с помощью метода single linkage, от кластеризации с методом complete linkage? А если обрезать дерево так, чтобы осталось 3 кластера? Выберите правильный ответ:

да, отличается; при обрезании дерева по 3 кластерам - не отличается
да, отличается; при обрезании дерева по 3 кластерам - тоже отличается
нет, не отличается; при обрезании дерева по 3 кластерам - не отличается
нет, не отличается; при обрезании дерева по 3 кластерам - отличается

[coloredTree.R]

В файле Fetal_Brain_dist.txt хранится матрица расстояний между геномными разметками. Проведите иерархическую кластеризацию по этой матрице (для этого матрицу нужно преобразовать с помощью функции as.dist(<имя матрицы>)), используйте параметры по умолчанию. Постройте полученное дерево кластеров. Какие утверждения являются верными?

Дерево содержит два четко различающихся кластера
Разметки H3K27me3 и mRNA-Seq лежат в одном кластере
Разметки H3K27me3 и H3K9me3 лежат в одном кластере
Разметка mRNA-Seq лежит на отдельной ветке и не кластеризуется с другими

Используя иерархическую кластеризацию, выявите кластеры в 10 случайно выбранных блогах из данных blogdata.txt. Обратите внимание, что в файле присутсвуют апострофы ('), которые, по умолчанию, трактуются функцией read.table как кавычки (хотя на самом деле таковыми не являются). Установите set.seed(578) и проводите операцию выбора блогов и их кластеризации (используя метод complete) аналогично тому, как это было рассказано на лекции. Получившееся дерево обрежьте по высоте 115. Отметьте правильные ответы среди предложенных.

блоги разделились на 5 кластеров
блоги разделились на 6 кластеров
блоги Quick Online Tips и CoolerHeads Prevail находятся в одном кластере
блоги Official Google Blog и Joel on Software находятся в разных кластерах

в самой большой кластер попадает 6 блогов

В файле economy.csv лежат данные с различными экономическими показалями стран мира. Для того, чтобы скластеризовать страны по совокупности всех показателей, сначала нормализуем данные при помощи фукнции scale. Это нужно для того, чтобы колонки с большими числовыми значениями не вносили больший вклад в расстояние. Установите seed=210653. Для кластеризации используйте алгоритм kmeans, разделите страны на 4 кластера. Какие утверждения являются верными:

самый большой кластер содержит 69 стран
Норвегия, Новая Зеландия и Кипр находятся в одном кластере
Россия и Индия входят в самый большой кластер
Вьетнам и Китай входят в самый маленький кластер

Kodomo

Пользователь