Учебный сайт
Владимира Ноздрина

Паралоги, визуализация

1. Составление списка гомологичных белков, включающих паралоги

Сначала протеомы моих бактерий были собраны в одном файле, по которому и был произведён поиск с помощью blastp:
$ makeblastdb -in proteomes.fasta -dbtype prot
$ blastp -task blastp -query CLPX_ECOLI.fasta -db proteomes.fasta -evalue 0.001 -outfmt 6 -out b.txt
Из файла с выдачей названия белков были скопированы в отдельный файл, доступный по ссылке. Последовательности из этого списка были извлечены из файла с протеомами и выровнены с помощью muscle:
$ for x in `cat m.txt`; do seqret proteomes.fasta:$x -out stdout >> seq.fasta; done
$ muscle -in seq.fasta -out alignment.fasta

2. Реконструкция и визуализация

Выравнивание было импортировано в MEGA, и филогения была реконструирована методом минимальной эволюции. Получившееся дерево в Newick-формате можно посмотреть по ссылке. На Рисунке 1 представлено дерево из практикума 1 (чтобы удобнее было сравнивать), а на Рисунках 2, 3 – деревья, полученные сейчас.
Рисунок 1. Достоверная филогения выбранных бактерий.
Рисунок 2. Полученное дерево. Цветом выделены ортологичные группы белков. Циановый – CLPX, оранжевый – HSLU, зелёный – RUVB, фиолетовый – группа из разных белков.
.
 На Рисунке 2 представлено полное дерево. Можно выделить, например, такие пары ортологов: CLPX_BORPE и CLPX_POLAQ; HSLU_PSEAE и HSLU_YERPE; RUVB_NEIMA и RUVB_BARHEЕ; И такие пары паралогов: HSLU_BARHE и CLPX_POLAQ; Q3SJR4_THIDA и Q3SFW1_THIDA; RUVB_BARHE и HSLU_BARHE.
 На дереве есть две большие ортологичные группы – CLPX и HSLU. Белки RUVB_NEIMA и RUVB_BARHE, видимо, тоже ортологичные. Белок Q3SFW1_THIDA попал в группу HSLU, хотя имеет другую мнемонику функции. Судя по тому, что филогения группы HSLU удовлетворяет филогении с Рис. 1, он действительно ортологичен всем остальным HSLU белкам.
 Фиолетовым я выделил группу белков с разными мнемониками функций. Тем не менее, эти белки объединились в одну ветку, филогения которой соответствует филогении бактерий. Поэтому эту ветвь можно считать одной ортологической группой.
 На Рисунке 3. то же самое дерево, но со "хлопнутыми" ветвями CLPX и HSLU.
Рисунок 3. То же дерево, но теперь ортологичные группы CLPX, HSLU и ORT3 "схлопнуты". Ветви CLPX соответствуют белки CLPX_BORPE, CLPX_POLAQ, CLPX_THIDA, CLPX_AROAE, CLPX_YERPE, CLPX_PSEAE, CLPX_NEIMA, CLPX_BARHE. То есть по одному белку из каждой бактерии. Филогения этой группы не полностью соответствует филогении бактерий (если поменять местами ветви {CLPX_NEIMA} и {CLPX_YERPE, CLPX_PSEAE}, то получится правильно). HSLU – ветвь, состоящая из белков HSLU_BARHE, HSLU_PSEAE, HSLU_YERPE, HSLU_BORPE, HSLU_AROAE, Q3SFW1_THIDA. Это шесть из восьми бактерий, но филогения ветви не противоречит филогении из Рис. 1. ORT3 – ветвь, состоящая из ортологичных белков с разными мнемониками функций. Объединяет белки A0A0H3LXZ4_BARHE, A4SXL5_POLAQ, Q3SJR4_THIDA, Q9HV48_PSEAE, A0A5P8YCE6_YERPE. Белки из пяти бактерий, филогения этих белков соответствует филогении бактерий
.