|
|
|
Модель судьбы вашего гена описана в виде
скобочной формулы здесь.
Расстояния даны как число мутаций на 100 нуклеотидных остатков.
- Создайте изображение дерева, описанного заданной Вам формулой.
Подпишите листья и длины ветвей.
- Опишите ветви дерева как разбиения множества листьев
(считая дерево бескорневым).
- Получите искуственные мутантные последовательности,
соответствующие листьям и узлам дерева, считая, что в корне находится
последовательность гена вашего белка (см. упражнение 2
второго
практикума прошлого семестра). В отчёте приведите длину гена,
формулу для пересчёта расстояний в число мутаций в вашем гене и
текст скрипта, которым получаются мутантные последовательности.
- На основе последовательностей, соответствующих
листьям, реконструируйте дерево алгоритмами UPGMA, Neighbor-joining и
максимального правдоподобия. Сравните деревья между собой и с правильным
деревом.
Будущий отчёт (в формате MS-Word или HTML)
по этому и следующему занятиям должен будет содержать: рисунок дерева,
таблицу ветвей как разбиений, информацию из упр. 3 (см. выше), а также
деревья, полученные при реконструкции и результат их сравнения (рекомендуемую
форму описания сравнения деревьев см. в подсказках).
Дополнительное упражнение
Сравнение разных способов оценки эволюционных расстояний между 2-мя генами
- Определите "истинные" эволюционные расстояния между конечными мутантами в cозданной Вами модели эволюции
(т.е. расстояния в числе замен между листьями заданного дерева)
Не забудьте, что расстояния принято приводить в расчете на 100 позиций.
Cоздайте новую рабочую книгу Excel "Dist.xls", содержащую 2 листа c названиями "All_data" и "Comparison".
На стр. "All_data" создайте таблицу с "истинными" попарными расстояниями (число замен на 100 нуклеотидов):
|
Gene... |
Mutant_A |
Mutant_B |
:.. |
Gene... |
0 |
85 |
40 |
|
Mutant_A |
|
0 |
15 |
|
Mutant_B |
|
|
0 |
|
:: |
|
|
|
|
- Определите попарные эволюционные расстояния между всеми последовательностями (включая исходную) c помощью программы distmat пакета EMBOSS.
Синтаксис:
distmat -sequence <file name > -outfile <outfile name> -nucmethod <метод оценки> <номер метода, см. help>
На вход программе подается множественное выравнивание, но т.к. в Вашей модели были только замены, то просто файл с последовательностями и будет соответствовать биологически значимому выравниванию.
Выбирая соответствующие пункты меню программы, получите 2 матрицы попарных расстояний:
- матрицу попарных различий (D) (uncorrected distances);
- матрицу попарных расстояний, вычисленных по формуле Джукса - Кантора (JC)
- *матрицу попарных расстояний, вычисленных по любой другой приглянувшейся Вам модели.
-
На стр. "All_data" импортируйте данные из выходных файлов distmat.
Т.е. на странице должны быть минимум 3 матрицы попарных расстояний: "истинных",
неоткорректированных расстояний или несовпадений (D) и расстояний по Джуксу - Кантору (JC)
Ваша следующая задача - на стр. "Comparison" собрать все данные в единую таблицу вида:
Имя пары |
"Истинное" расстояние (T) |
Несовпадения (D) |
Jukes-Cantor (JC) |
Gene....Gene.... |
0 |
0 |
0 |
Gene_MutantА |
35 |
33 |
34 |
Gene_MutantВ |
78 |
... |
... |
Один из возможных способов преобразовать матрицы расстояний в таблицу нужного вида
можно найти в
задании №12, пп.4-7, 2004 и подсказках к нему.
Отсортируйте всю таблицу по убыванию "истинных расстояний". По полученным данным постройте график зависимости 2-х оценок расстояния (D, JC) от величины "истинного" расстояния (T).
- В отчете (HTML-страничка) кратко опишите, что и зачем делали. Приведите ссылку на книгу Excel.
Приведите картинку с полученным графиком.
Опишите диапазон, в котором полученные оценки эволюционных расстояний близки к "истинным". Укажите, начиная с каких эволюционных расстояний полученные оценки сильно отклоняются от реального числа эволюционных событий.
Сделайте выводы.
|