Kodomo

Пользователь

[economy.csv] [empl.txt] [Fetal_Brain_dist.txt] [blogdata.txt]

В файле empl.txt содержится информация о безработице в 10 европейский странах, по состоянию на 1979 год. Данные приведены для стран: B - Бельгия, CH - Швейцария, CS - Чехословакия, D - Германия, GB - Великобритания, GR - Греция, H - Венгрия, S - Швеция, TR - Турция, YU - Югославия. Отличается ли иерархическая кластеризация (используйте евклидово расстояние), проведенная с помощью метода single linkage, от кластеризации с методом complete linkage? А если обрезать дерево так, чтобы осталось 3 кластера? Выберите правильный ответ:

[coloredTree.R]


В файле Fetal_Brain_dist.txt хранится матрица расстояний между геномными разметками. Проведите иерархическую кластеризацию по этой матрице (для этого матрицу нужно преобразовать с помощью функции as.dist(<имя матрицы>)), используйте параметры по умолчанию. Постройте полученное дерево кластеров. Какие утверждения являются верными?


Используя иерархическую кластеризацию, выявите кластеры в 10 случайно выбранных блогах из данных blogdata.txt. Обратите внимание, что в файле присутсвуют апострофы ('), которые, по умолчанию, трактуются функцией read.table как кавычки (хотя на самом деле таковыми не являются). Установите set.seed(578) и проводите операцию выбора блогов и их кластеризации (используя метод complete) аналогично тому, как это было рассказано на лекции. Получившееся дерево обрежьте по высоте 115. Отметьте правильные ответы среди предложенных.

в самой большой кластер попадает 6 блогов


В файле economy.csv лежат данные с различными экономическими показалями стран мира. Для того, чтобы скластеризовать страны по совокупности всех показателей, сначала нормализуем данные при помощи фукнции scale. Это нужно для того, чтобы колонки с большими числовыми значениями не вносили больший вклад в расстояние. Установите seed=210653. Для кластеризации используйте алгоритм kmeans, разделите страны на 4 кластера. Какие утверждения являются верными: