Ещё деревья


Добываем гомологи

В этом задании мы должны были найти гомологи белка CLPX_ECOLI среди протеомов бактерий, рассмотренных в предыдущем праке. Для этого сольём все файлы с протеомами в один и пройдёмся по нему бластом, выбирая последовательности, для которых e-value < 0,001.
cat AGRFC.fasta BURCA.fasta HAEIN.fasta PASMU.fasta THIDA.fasta YERPE.fasta > proteins.fasta (файл)
makeblastdb -parse_seqids -in proteins.fasta -dbtype prot -out proteins_db
blastp -query clpx_ecoli.fasta -num_threads 4 -db proteins_db -evalue 0.001 -out blast.txt (файл)
Выпишем в отдельный файл список найденных гомологов. С помощью JalView, скачали записи и выровняли их с помощью Muscle (файл с выравниванием).

Строим деревья

Построим дерево в MEGA методом максимального правдоподобия (newick). Если предположить дерево реконструированным верно, попробуем указать несколько ортологов и паралогов. Два гомологичных белка будем называть ортологами, если они из разных организмов и разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.
Ортологи:
CLPX_PASMU - CLPX_HAEIN
HSLU_PASMU - HSLU_HAEIN
CLPX_BURCA - CLPX_AGRFC
Паралоги:
Q3SJH1_THIDA - Q3SKL1_THIDA
CLPX_PASMU - HSLU_PASMU
CLPX_HAEIN - CLPX_PASMU
Визуализируем дерево:
На первом изображении основные ортологичные группы покрашены в синий и красный.
Рис. 1. Дерево с окрашенными ортологичными группами
На втором изображении все ортологичные группы, содержащие более трёх последовательностей, схлопнуты и подписаны. В группу CLPX попали белки CLPX_PASMU, CLPX_HAEIN, CLPX_YERPE, CLPX_THIDA, CLPX_BURCA, CLPX_AGRFC, в группу HSLU белки HSLU_PASMU, HSLU_HAEIN, HSLU_YERPE. В неё можно было бы добавить все шесть белков, но, к сожалению, есть одна выпадающая ветка - Q3SFW1_THIDA. Дерево по этим белкам не совсем соответствует тому, которое мы получили на прошлом практикуме. Так например, в части дерева CLPX, виды THIDA и BURCA нходились в одной кладе, а сейчас находятся в отношениях соподчинения. Также, AGRFC И RHIME находились в одной группе, а здесь RHIME вообще нет, хотя другие гомологи из этого вида нашлись. Всё это говорит о том, что филогенетические деревья генов не всегда корректно отображают эволюционные взаимоотношения видов, особенно среди бактерий, где постоянно происходят крупные события вроде горизонтального переноса генов.
Рис. 2. Дерево со схлопнутыми ортологичными группами