1. Построение дерева по нуклеотидным последовательностям
Для начала найдем для каждой из бактерий ее полный геном и в нём — последовательность 16S рРНК.
Полное обозначение | Мнемоника | Полный геном в EMBL | Координаты | Цепь |
Bacillus anthracis | BACAN | AE016879 | 9335..10841 | прямая |
Clostridium botulinum | CLOB1 | CP000726 | 9282..10783 | прямая |
Enterococcus faecalis | ENTFA | AE016830 | 248466..249987 | прямая |
Geobacillus kaustophilus | GEOKA | BA000043 | 10421..11973 | прямая |
Lactobacillus delbrueckii | LACDA | CR954253 | 45160..46720 | прямая |
Listeria monocytogenes | LISMO | CP002816 | 256567..258104 | прямая |
Staphylococcus epidermidis | STAES | AE015929 | 1598006..1599559 | обратная |
Streptococcus pneumoniae | STRPN | AE007317 | 15161..16674 | прямая |
Составим список AC с координатами и указанием цепи (list.txt) и скрипт для автоматического получения всех фрагментов в один файл (fetch.py). Переименуем названия, результат: seq.fasta. Выравнивание muscle: seq_aligned.fasta.
Дерево было построено с использованием метода Neighbour-Joining и оказалось более-менее хорошим (показана только топология):
Для сравнения правильное дерево:
Проблемы только с Bacillales — ветвь BACAN,GEOKA vs LISMO,STAES потеряна и заменена несуществующей BACAN,STAES vs LISMO,GEOKA; BACAN,GEOKA,LISMO vs STAES потеряна и заменена несуществующей BACAN,STAES,LISMO vs GEOKA.
В целом это дерево, конечно, лучше тех, что получались по белкам.
2. Построение и анализ дерева, содержащего паралоги
Поиск blastp по восьми организмам в отдельности выдает с хорошим покрытием следующие белки: группы CLP — CLPB, CLPC, CLPE, CLPL, CLPX, а также HSLU. Все они были соответствующе переименованы и сохранены в proteins.fasta. (Примечание: CLPC_GEOKA не был назван по имени, пришлось установить его принадлежность, сравнивая с различными указанными белками у сенной палочки.) Файл, выровненный Muscle: proteins_aligned.fasta. Выравнивание получилось хорошим и не лишенным смысла, хотя и непривычным глазу. Оно и понятно — белки разделились уже очень давно и с тех наэволюционировались вдоволь. Тем не менее, первые 200 позиций выравнивания (из ~960) я счел необходимым удалить, как и последние 20 — в них выравнивание теряет всякий биологический смысл. То, что осталось — proteins_aligned_cut.fasta — импортируем в Мегу и смотрим, что будет. Получается вот что:
Пример ортологов здесь — например, любые два белка CLPX (или HSLU) из разных организмов. Для любого фиксированного организма (например, STAES) CLPX, HSLU, CLPE, CLPB, CLPC являются паралогами.