Задание 1. Моделирование и реконструкция эволюции гена
Для
выполнения
задания была выдана следующая формула: [(((А:40,B:40):5,C:70):30,D:50):10,(E:50,F:50):50] +---50--------------- F Таблица, описывающая дерево как разбиение множества листьев: A B C D E F . . * * * * . . . * * * . . . . * * Длина гена, кодирующего мой белок, составляет 1103 нуклеотида. Соответственно формула для пересчета длинны ветви в количество необходимых мутаций: (длина ветви)*1103/100. Для выполнения мутаций использовалась программа msbar пакета EMBOSS с параметрами -point 4 -count n -auto, где -point 4 разрешает только замены, а -count n — количество мутаций. Поскольку мутации имели исключительно характер замен, это облегчало некоторые последующие действия. В частности, простое перечисление последовательностей в fasta-формате являлось одновременно и выравниванием, необходимым для выполнения программ построения деревьев. Скрипт. Выравнивание полученных путем мутагенеза листьев. #2 Сравнение работы различных алгоритмов fdnadist ali.fasta -ttratio 1 -auto (Вычисление попарных расстояний между последовательностями. Параметр ttratio это отношение транзиций к трансверсиям. Т.е. этим параметром можно уточнять эволюционную модель. Значение 1 соответствует изначальной модели Джукса-Кантора) +---------B ! ! +------------------C 2-----------3 ! ! +--------D ! +---------4 ! ! +----------E ! +---------------1 ! +-------------F ! +--------A A B C D E F . . * * * * . . . * * * . . . . * * Неукорененное дерево. Эвристический алгоритм, в основе которого лежит поиск пар наиболее близких листьев (за счет попарных выравниваний) не полностью справился с воссозданием дерева: Топология совпадает (но нужно учитывать что построенное по алгоритму Neighbor-joining дерево неукорененное), но длинны ветвей недостоверны: например расстояния от E и F до узла не одинаковые, в отличии от оригинала. fdnadist ali.fasta -ttratio 1 -auto
+-----------------A +---------------------1 ! +-----------------B +-----------4 ! ! +-----------------------------------C ! +---3 --5 +-----------------------------------D ! ! +-----------------------E +---------------------------2 +-----------------------F A B C D E F . . * * * * * * . . * * . . . . * *Укорененное дерево. Алгоритм, который в настоящее время считается грубым, оказался в данной ситуации наиболее недостоверным. В отличии от других алгоритмов, UPGMA строит укорененное ультраметрическое дерево. Поскольку в основе алгоритма лежит усреднение расстояния от пар листьев до узла, то в результате алгоритм не смог построить дерево похожее на исходное: изменилась топология и расстояния от листьев до ближайших узлов у пар листьев одинаковые, что не соответствует действительности — исходное дерево не ультраметрическое. —Алгоритмом максимального правдоподобия fdnaml ali.fasta -ttratio 1 -auto aliml.fdnaml +--------B | | +------------F | +--------------4 | +--------3 +----------E | | | 1----------2 +---------D | | | +-----------------C | +--------A A B C D E F . . * * * * . . . * * * . . . . * *Неукорененное дерево. Переборный алгоритм выдал результат очень схожий с результатом Neighbor-joining. Т.е. топология верная, но длины ветвей — нет. В результате мы получили такую картину: UPGMA ошибся, результат Neighbor-joining скоррелировал с результатом перебора методом максимального правдоподобия, но результат все равно отличается от реального — при правильно предсказанной топологии не правильно определенные длинны ветвей. Возможно это произошло из-за того что было произведено слишком много замен: например если выровнять изначальную последовательность и, например, лист F, то выяснится, что между последовательностями всего 52.7% схожести. И, это случайные совпадения — для превращения изначальной последовательности в мутант F было произведено 100 мутаций на каждые 100 нуклеотидов (суммарная длина ветвей от корня до листа F). В подтверждение случайности совпадений: выравнивание F и D дало 42.4% совпадений, хотя между ними 160 мутаций на каждые 100 нуклеотидов. Думаю именно поэтому алгоритмам не удалось восстановить дерево — оно строилось на основе случайных последовательностей. Думаю в реальности программам проще работать, особенно при наличии консервативных сайтов в группе исследуемых белков. |