Учебный сайт Екатерины Швецовой

Построение дерева по нуклеотидным последовательностям

Построение филогенетического дерева восьми выбранных бактерий отдела Firmicutes проводилось на основе нуклеотидных последовательностей РНК малой субъединицы рибосомы (16S rRNA).

Последовательности 16S рибосомальной РНК каждой бактерии были скачаны из базы полных геномов NCBI (для каждой бактерии выбиралась одна из последовательностей 16S РНК, имеющихся в файле с расширением .frn). Все последовательности были записаны в файл, в названиях последовательностей были оставлены только соответствующие мнемоники бактерий.

Далее последовательности были выравнены с помощью сервера Muscle, выравнивание было импортировано в MEGA (при импорте был указан метод Analyze). Дерево было реконструировано методом Maximum likelihood. Графическое изображение дерева можно увидеть на рис. 1.

img1

Рис. 1. Филогенетическое дерево нескольких видов бактерий отдела Firmicutes, построенное на основе выравнивания нуклеотидных последовательностей РНК малой субъединицы рибосомы (16S rRNA). Дерево построено методом Maximum likelihood.

Если сравнить полученное дерево с правильным деревом, построенным на основе филогении (см. предыдущий практикум), то можно заметить, что правильно реконструированы только две нетривиальные ветви - {CLOB1,FINM2} vs {LACDA,STRPN,BACAN,GEOKA,LISMO,STAES} и {CLOB1,FINM2,LACDA,STRPN} vs {BACAN,GEOKA,LISMO,STAES}. Остальные нетривиальные ветви правильного дерева отсутствуют на полученном. Дерево, построенное на основе последовательностей 16S РНК значительно хуже отражает действительность, чем деревья, построенные на основе выравнивания белков (полученные во время выполнения предыдущих практикумов). Это связано с тем, что выравнивания нуклеотидных последовательностей сами по себе менее достоверны, чем выравнивания соответствующих белков (из-за того что нуклеотидные последовательности состоят только из 4-ёх букв, вероятность случайного совпадения позиций намного больше, чем для белковых последовательностей).

Построение и анализ дерева, содержащего паралоги

Проводился поиск гомологов белка CLPX_BACSU среди белков восьми выбранных бактерий.

Протеомы бактерий были скачаны из директории P:\y13\term4\Proteomes и объединены в общий файл proteomes.fasta. Файл с последовательностью исследуемого белка был скачан из базы данных Swissprot.

Поиск гомологов проводился с помощью blastp:

makeblastdb -in proteomes.fasta -dbtype prot
blastp -query CLPX_BACSU.fasta -db proteomes.fasta -evalue 0.001 -outfmt 7 -out blastp.out
На основе полученного файла, содержащего информацию о гомологах, был создан файл-список
cat blastp.out | egrep -v '#' | awk ' {print $2}' | awk ' BEGIN {FS = "|"} {print "fasta::proteomes.fasta:" $3}' > homol_id.bs
Затем из этого списка были удалены "дублирующиеся" белки (могут появиться из-за того, что один белок может иметь несколько участков совпадений с исходным). Получившийся список homol_un_id.bs был подан на вход программе seqret:
seqret @homol_un_id.bs

Таким образом был получен файл homologs_un.fasta, содержащий аминокислотные последовательности гомологов белка CLPX_BACSU. В названиях последовательностей были оставлены только идентификаторы белков, после чего последовательности были выравнены с помощью Muscle, выравнивание импортировано в MEGA. Дерево реконструировано методом Maximum likelihood. Графическое изображение получившегося дерева можно увидеть на рис. 2.

img2

Рис. 2. Филогенетическое дерево гомологов белка CLPX_BACSU среди белков восьми бактерий отдела Firmicutes. Построено методом Maximum likelihood. Зелёными рамочками выделены группы попарно ортологичных белков, красными - паралоги. Зелёными звёздочками помечены примеры разделения путей эволюции белков в результате видообразования, красной звёздочкой - пример дупликации гена.

Два гомологичных белка будем называть ортологами, если они: а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.

На рис. 2 отмечены две группы попарно ортологичных белков (в зелёных рамочках), две пары паралогов (выделены красными рамочками), пример дупликации гена (красная звёздочка) и два примера разделения путей эволюции белков в результате видообразования (зелёные звёздочки).

© Shvetsova Ekaterina, FBB MSU, 2013
Дата последнего изменения: 07.12.2016