Wednesday, March 15, 2017. Posted by Marina Gladkova

Evolutionary trees.

Задание 1. Построение дерева по нуклеотидным последовательностям.



Для выполнения задания мной были получены последовательности 16S рибосомальной РНК каждой из бактерий (указанных в первом практикуме данного блока) из базы полных геномов NCBI (файлы с расширением .frn с РНК-кодирующими участками генома). Штаммы бактерий и последовательности для выравнивания выбирались случайным образом.


Из полного генома бактерий для каждой было отобрано по одной последовательности, кодирующей субъединицу 16S (во многих геномах таких последовательностей несколько). Выбранные последовательности были объединены в fasta-файл (с указанием в качестве идентификаторов только мнемоник видов) для дальнейшего выравнивания в JalView алгоритмом Muscle. По данному выравниваю в MEGA было построено дерево.

Дерево, построенное на основе выравнивания последовательностей 16S RNA методом NJ


NJ + Bootstrap-проверка: Original tree


NJ + Bootstrap-проверка: Consensus tree


Эталонное дерево


Топология дерева, построенного по рибосомальной РНК:
1) {STAES, FINM2} vs. {CLOTE, ENTFA, GEOKA, BACSU, STAAR}
2) {STAES, FINM2, CLOTE} vs. {ENTFA, GEOKA, BACSU, STAAR}
3) {STAES, FINM2, CLOTE, ENTFA, GEOKA} vs. {BACSU, STAAR}

Мы видим, что в данном дереве нет ни одной нетривиальной ветви, совпадающей с ветвями эталонного дерева. Также можно наблюдать неправильное укоренение в ветвь {STAES} vs. {FINM2, CLOTE, ENTFA, GEOKA, BACSU, STAAR}. Такие результаты вполне объяснимы, ведь метод NJ относится к дистаницонным, то есть оценивает расстояния между последовательностями, учитывая число мутаций, а судя по выравниванию, последовательность STAES явно выделяется большим количеством инделей.

Выравнивание последовательностей 16S RNA



Если говорить о сходствах с деревьями, реконструированными по белковым последовательностям, можно лишь отметить общую тенденцию соседнего расположения листьев CLOTE и FINM2 (в эталонном дереве они объединены в кладу) и отделение группы (STAAR, BACSU, GEOKA) и Enterococcus faecalis от общего предка.

*Попытка что-то исправить*
Из-за плохого выравнивания STAES относительно других последовательностей была предпринята попытка обновить сами последовательности (выбирались близкие по длине, с максимальным различием в 15 нуклеотидов). Однако и такой подход не позволил добиться хорошего качества выравнивания относительно STAES. Поэтому было решено удалить эту последовательность из выравнивания и построить дерево без нее (будем считать, что веть с листом STAAR на самом деле включает в себя 2 листа - STAAR и STAES, как это было в исходном дереве).

Дерево, построенное на основе выравнивания последовательностей 16S RNA (без STAES) методом NJ


В таком случае наблюдается одна нетривиальная ветвь из эталонного дерева, а именно: {CLOTE, FINM2} vs. {ENTFA, STAAR (+STAES), GEOKA, BASCU}. Результат меня удивил, потому что качество выравнивания без STAES показалось мне вполне удовлетворительным.




Задание 2. Построение и анализ дерева, содержащего паралоги.



В данном задании предлагалось построить дерево гомологичных белку CLPX_BACSU белков заданного списка бактерий. Затем, полагая, что дерево реконструировано верно, нужно было определить ортологи и паралоги, привести примеры некоторых эволюционных событий.

Ортологи - пара гомологичных белков из разных организмов, разделение общего предка которых на линии, ведущие к этим белкам, произошло в результате видообразования.
Паралоги - пара гомологичных белков из одного организма.

Файлы из директории P:\y15\term4\Proteomes, содержащие полные протеомы (база UniProt), были конкатенированы в файл proteoms.fasta.
cat file1 >> file2
Далее на основе протеомов была создана база данных, по которой производился поиск гомологов.
makeblastdb -in proteoms.fasta -dbtype prot -out dbprot.fasta
blastp -query CLPX_BACSU.fasta -evalue 0.001 -db dbprot.fasta -out result
Таким образом нашлась 31 последовательность, из них 26 достоверных гомологов (с E-value < 1e-4).

Последовательности гомологов

Последовательность и мнемоникаBit-ScoreE-value
sp|P50866|CLPX_BACSU ATP-dependent Clp protease ATP-binding subunit ClpX8410.0
sp|Q5KWJ9|CLPX_GEOKA ATP-dependent Clp protease ATP-binding subunit ClpX7110.0
sp|Q8CNY5|CLPX_STAES ATP-dependent Clp protease ATP-binding subunit ClpX6080.0
sp|Q6GG31|CLPX_STAAR ATP-dependent Clp protease ATP-binding subunit ClpX6060.0
sp|Q891J8|CLPX_CLOTE ATP-dependent Clp protease ATP-binding subunit ClpX5950.0
sp|Q833M7|CLPX_ENTFA ATP-dependent Clp protease ATP-binding subunit ClpX5790.0
tr|B0S2N5|B0S2N5_FINM2 ATP-dependent Clp protease ATP-binding subunit ClpX5590.0
sp|Q5L0N1|HSLU_GEOKA ATP-dependent protease ATPase subunit HslU1013e-23
sp|Q834K4|HSLU_ENTFA ATP-dependent protease ATPase subunit HslU1013e-23
sp|P39778|CLPY_BACSU ATP-dependent protease ATPase subunit ClpY99.81e-22
sp|Q8CPH0|HSLU_STAES ATP-dependent protease ATPase subunit HslU99.02e-22
sp|Q6GHI1|HSLU_STAAR ATP-dependent protease ATPase subunit HslU97.46e-22
tr|Q5L436|Q5L436_GEOKA ATP-dependent Clp protease ATPase subunit65.92e-11
tr|Q890L5|Q890L5_CLOTE Negative regulator of genetic competence ClpC/MecB57.46e-09
sp|P37571|CLPC_BACSU Negative regulator of genetic competence ClpC/MecB56.69e-09
sp|O31673|CLPE_BACSU ATP-dependent Clp protease ATP-binding subunit ClpC55.52e-08
sp|Q6GDQ0|CLPL_STAAR ATP-dependent Clp protease ATP-binding subunit ClpL54.74e-08
sp|Q6GJE4|CLPC_STAAR ATP-dependent Clp protease ATP-binding subunit ClpC54.36e-08
tr|Q899V4|Q899V4_CLOTE Negative regulator of genetic competence ClpC/MecB53.59e-08
sp|Q8CQ88|CLPC_STAES ATP-dependent Clp protease ATP-binding subunit ClpC52.03e-07
tr|B0S3X9|B0S3X9_FINM2 ATP-dependent protease Clp ATP-binding subunit51.64e-07
tr|B0S0E3|B0S0E3_FINM2 ATP-dependent zinc metalloprotease FtsH50.11e-06
tr|B0S3J0|B0S3J0_FINM2 Chaperone protein ClpB OS=Finegoldia magna45.43e-05
tr|Q82YZ7|Q82YZ7_ENTFA ATP-dependent Clp protease, ATP-binding subunit45.43e-05
tr|Q899H3|Q899H3_CLOTE ATP-dependent zinc metalloprotease FtsH44.75e-05

По мнемоникам файла result с использованием сервера MUSCLE было построено выравнивание, на основе которого в MEGA методом Neighbour Joining было реконструировано дерево.

Дерево гомологов белка CLPX BACSU, полученное в MEGA (с учетом длин ветвей, не отображены с эстетической точки зрения)


То же дерево с указанием групп гомологов и эволюционных событий

Источники