Учебный сайт Кирилла Цуканова → Четвертый семестр

Нуклеотидные последовательности и паралоги

1. Построение дерева по нуклеотидным последовательностям

Для начала найдем для каждой из бактерий ее полный геном и в нём — последовательность 16S рРНК.

Полное обозначениеМнемоникаПолный геном в EMBLКоординатыЦепь
Bacillus anthracisBACANAE0168799335..10841прямая
Clostridium botulinumCLOB1CP0007269282..10783прямая
Enterococcus faecalisENTFAAE016830248466..249987прямая
Geobacillus kaustophilusGEOKABA00004310421..11973прямая
Lactobacillus delbrueckiiLACDACR95425345160..46720прямая
Listeria monocytogenesLISMOCP002816256567..258104прямая
Staphylococcus epidermidisSTAESAE0159291598006..1599559обратная
Streptococcus pneumoniaeSTRPNAE00731715161..16674прямая

Составим список AC с координатами и указанием цепи (list.txt) и скрипт для автоматического получения всех фрагментов в один файл (fetch.py). Переименуем названия, результат: seq.fasta. Выравнивание muscle: seq_aligned.fasta.

Дерево было построено с использованием метода Neighbour-Joining и оказалось более-менее хорошим (показана только топология):

Для сравнения правильное дерево:

Проблемы только с Bacillales — ветвь BACAN,GEOKA vs LISMO,STAES потеряна и заменена несуществующей BACAN,STAES vs LISMO,GEOKA; BACAN,GEOKA,LISMO vs STAES потеряна и заменена несуществующей BACAN,STAES,LISMO vs GEOKA.

В целом это дерево, конечно, лучше тех, что получались по белкам.

2. Построение и анализ дерева, содержащего паралоги

Поиск blastp по восьми организмам в отдельности выдает с хорошим покрытием следующие белки: группы CLP — CLPB, CLPC, CLPE, CLPL, CLPX, а также HSLU. Все они были соответствующе переименованы и сохранены в proteins.fasta. (Примечание: CLPC_GEOKA не был назван по имени, пришлось установить его принадлежность, сравнивая с различными указанными белками у сенной палочки.) Файл, выровненный Muscle: proteins_aligned.fasta. Выравнивание получилось хорошим и не лишенным смысла, хотя и непривычным глазу. Оно и понятно — белки разделились уже очень давно и с тех наэволюционировались вдоволь. Тем не менее, первые 200 позиций выравнивания (из ~960) я счел необходимым удалить, как и последние 20 — в них выравнивание теряет всякий биологический смысл. То, что осталось — proteins_aligned_cut.fasta — импортируем в Мегу и смотрим, что будет. Получается вот что:

Пример ортологов здесь — например, любые два белка CLPX (или HSLU) из разных организмов. Для любого фиксированного организма (например, STAES) CLPX, HSLU, CLPE, CLPB, CLPC являются паралогами.