Реконструкция деревьев по нуклеотидным последовательностям. Деревья, содержащие паралоги

Построение дерева по нуклеотидным последовательностям

Данная работа посвящена постоению филогенетического дерева взятых для изучения бактерий при помощи последовательностей РНК малой субъединицы рибосомы (16S rRNA).

В Uniprot находили записи о некоторых (принципиально - любых) белках данных бактерий и находили полногеномные записи EMBL, на которые ссыллаются в аннотациях к найденным белкам. В записях EMBL найдем соответствующие"особенности" (FT), с ключом (FTkey) "rRNA", "16S rRNA". Координаты интересующих последовательностей записиывались для последующего вырезания в отдельные файлы командой:

seqret embl:[АС полногеномной записи] -sask

Все необходимые данные о взятых последовательностях приведены в таблице 1.

Название Мнемоника AC записи EMBL Координаты 16S рРНК Цепь
Bacillus subtilis BACSU AL009126 9810-11364 Прямая
Clostridium tetani CLOTE AE015927 8715-10223 Прямая
Geobacillus kaustophilus GEOKA BA000043 30790..32343 Прямая
Lactobacillus acidophilus LACAC CP000033 59255-60826 Прямая
Lactobacillus delbrueckii LACDA CR954253 45160..46720 Прямая
Lactococcus lactis LACLM CP002365 470580-472133 Прямая
Listeria monocytogenes LISMO AL591981 99187..100732 Обратная
Staphylococcus aureus STAA1 CP003808 540419-542060 Прямая

Таблица 1. Данные о последовательностях.

Нуклеотидные последовательности были собраны в одном файле (указаны названия организмов), после чего они были выровнены программой muscle:

muscle -in 6S-all.fasta -out 16S-all-aligned.fasta

Результат представлен в файле выравнивания.

Дерево реконструировалось в программе MEGA6 с помощью метода максимальной правдоподобности (Maximum Likelihood). Полученное дерево приведено на рисунке 1.

trees

Рис.1. Реконструированное дерево (пояснения в тексте)

На рисунке 2 для сравнения приведено правильное дерево.

tree1

Рис.2. Правильное дерево

Сравнение деревьев. Нетривиальная ветвь дерева с сохраненной структурой можно рассматривать как отдельное дерево. Поэтому опишем реконструированное дерево через "поддеревья", которые в нем появились и которых в нем не хватает. В реконструированном дереве:

Оценка реконструкции по нуклеотидным последовательностям. Реконструированное дерево оказалось достаточно близким к правильному. Тем не менее, результаты могли быть и лучше, т.к. вероятность случайного совпадения при анализе нуклеотидных последовательностей меньше, чем при анализе белков. Это связано с тем, что стандартных нуклеотидов в 5 раз меньше, чем аминокислот, и многие аминокислоты кодируются несколькими кодонами (до 6). Т.е. нуклеотидные выравнивания позволяют увидеть более реальную картину гомологии. Вероятно, 16S РНК является с одной стороны достаточно консервативной, а с другой стороны и имеет специфические позиции для разных таксонов. Так что выбор этой последовательности для анализа можно назвать удачным.


Построение и анализ дерева, содержащего паралоги

Эта часть работы произведена с целью построение дерево гомологов CLPX, принадлежащих вырбранным бактериям.

С помощью blastp записей банка UNIPROT(с разумным порогом на E-value, скажем, 0,001) были найдены достоверные гомологи белка CLPX_BACSU. Всего было обнаружено 32 гомолога. Последовательности белков можно увидеть в файле clpx_homol.fasta (данные о базах данных и AC белков в файле clpx_homol.txt). Реконструкция проведена в MEGA6 при помощи метода Neighbour Joining c использованием Bootstrap, чтобы было ясно, какие ветви вообще интересно рассматривать для опиания гомологов. Дерево гомологов представлено на рисунке 3.

trees

Рис.3. Дерево гомологов CPLX изучаемых бактерий.

Два гомологичных белка - ортологи, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования.

Примеры: CLPX_BACSU и CLPX_GEOKA, HSLU_STAA1 и HSLU_LISMO.

Два гомологичных белка из одного организма - паралоги.

Примеры: Q8Y8B1_LISMO и Q8YAB6_LISMO, Q891B9_CLOTE и Q899H3_CLOTE.



Последнее изменение: 2014 (pankevich-ev)