Из файла с выдачей названия белков были скопированы в отдельный файл, доступный по ссылке.
Последовательности из этого списка были извлечены из файла с протеомами и выровнены с помощью muscle:
$ for x in `cat m.txt`; do seqret proteomes.fasta:$x -out stdout >> seq.fasta; done
$ muscle -in seq.fasta -out alignment.fasta
2. Реконструкция и визуализация
Выравнивание было импортировано в MEGA, и филогения была реконструирована методом минимальной эволюции. Получившееся дерево в Newick-формате можно посмотреть по ссылке. На Рисунке 1 представлено дерево из практикума 1 (чтобы удобнее было сравнивать), а на Рисунках 2, 3 – деревья, полученные сейчас.
На Рисунке 2 представлено полное дерево. Можно выделить, например, такие пары ортологов: CLPX_BORPE и CLPX_POLAQ; HSLU_PSEAE и HSLU_YERPE; RUVB_NEIMA и RUVB_BARHEЕ; И такие пары паралогов: HSLU_BARHE и CLPX_POLAQ; Q3SJR4_THIDA и Q3SFW1_THIDA; RUVB_BARHE и HSLU_BARHE.
На дереве есть две большие ортологичные группы – CLPX и HSLU. Белки RUVB_NEIMA и RUVB_BARHE, видимо, тоже ортологичные. Белок Q3SFW1_THIDA попал в группу HSLU, хотя имеет другую мнемонику функции. Судя по тому, что филогения группы HSLU удовлетворяет филогении с Рис. 1, он действительно ортологичен всем остальным HSLU белкам.
Фиолетовым я выделил группу белков с разными мнемониками функций. Тем не менее, эти белки объединились в одну ветку, филогения которой соответствует филогении бактерий. Поэтому эту ветвь можно считать одной ортологической группой.
На Рисунке 3. то же самое дерево, но со "хлопнутыми" ветвями CLPX и HSLU.