Построение дерева по нуклеотидным последовательностям

В этом задании было необходимо построить филогенетическое дерево выбранных ранее бактерий, используя последовательности РНК малой субъединицы рибосомы (16S rRNA). Данные нуклеотидные последовательности я получила из базы полных геномов NCBI. Для каждой из бактерий был открыт полный геном, в нем были найдены координаты генов РНК 16S рибосомной субъединицы, которые затем были открыты в формате fasta и собраны в единый fasta-файл (nuc_sequences.fasta).

Стоит отметить, что в геномах бактерий встречается несколько генов, кодирующих 16S-субъединицу. В каждом случае последовательность для выравнивания была выбрана случайно.

С помощью сервера Muscle было получено выравнивание последоваетельностей (nuc_ali.fasta).

Выравнивание было открыто в мега методом Analyze, и по нему было реконструировано филогенетическое дерево с использованием способа Maximum likelihood (Рис. 1.)

Рис. 1. Дерево нуклеотидных последовательностей, построенное методом Maximum likelihood Рис. 2. Эталонное дерево

Полученное дерево содержит 5 нетривиальных ветвей:
  1. {ENTFA, STRPN} против {STAAR, STAES, LISMO, CLOTE, FINM2, LACDA}
  2. {ENTFA, STRPN, LACDA} против {STAAR, STAES, LISMO, CLOTE, FINM2}
  3. {STAAR, LISMO} против {ENTFA, STRPN, STAES, LACDA, CLOTE, FINM2}
  4. {CLOTE, FINM2} против {STAAR, STAES, LISMO, ENTFM, STRPN, LACDA}
  5. {CLOTE, FINM2, STAES} против {STAAR, LISMO, ENTFM, STRPN, LACDA}
Из них с ветвями эталонного совпадают только три: 1, 2 и 4. Примерно такой же результат наблюдался и при реконструкции по белковым последовательностям.

Построение и анализ дерева, содержащего паралоги

В выбранных бактериях были найдены гомологи белка CLPX_BACSU. Для этого сначала был создан единый файл с протеомами бактерий proteomes.fasta. По нему с помощью команды

makeblastdb -in proteomes.fasta -out db.fasta -dbtype prot

была создана база данных для blastp.

Затем командой

blastp -query CLPX_BACSU.fasta -db db.fasta -evalue 0.001 -out result.txt

был получен файл results.txt, содержащий среди прочего мнемоники последовательностей, дающих с нашим белком выравнивания с e-value не хуже заданного (0.001). Всего их оказалось 39.

Рис. 3. Дерево последовательностей гомологов,
построенное методом Neighbour-joining
При помощи fetch sequences последовательности были извлечены в JalView, и сервисом Muscle было постороено их выравнивание (hom_ali.fasta). Для удобства в названиях последовательностей были оставлены только мнемоники.

Выравнивание было открыто в Mega, и по нему методом Neighbour-joining было построено филогенетическое дерево. (Рис. 3) Считая, что данное дерево реконструировано верно, можно попытаться найти на нем ортологов и паралогов.

Гомологичные последовательности называют ортологами, если они произошли в результате видообразования. Паралоги - гомологи, которые произошли в результате дупликации.

В нашем случае два гомологичных белка будем называть ортологами, если они:

а) из разных организмов;
б) разделение их общего предка на линии, ведущей к ним, произошло в результате видообразования.

Два гомологичных белка из одного организма будем называть паралогами.

На данном дереве примерами ортологов являются: Примерами паралогов являются:
Рис. 4. Примеры эволюционных событий








Также по имеющемуся дереву можно попытаться восстановить эволюционные события. На рисунке 4 красными рамочками выделены некоторые примеры разделения путей эволюции в результате видообразования, а голубыми рамочками - дупликации генов.