Практикум 4

Составление списка гомологичных белков, включающих паралоги

Для выполнения практикума мной были выбраны бактерии:

Далее в отдельной директории выбранные протеомы были объединены в один файл. Затем на основе выбранных протеомов была создана локальная база данных для запуска blastp при помощи команды:

makeblastdb -in db.fasta -dbtype prot

После чего был запущен blastp на основе созданной базы данных. В качестве запроса была подана последовательность белка CLPX_ECOLI (файл). Для отбора достоверных гомологичных белков среди отобранных бактерий был поставлен порог на E-value в 0.0001.

blastp -task blastp -query ref.fasta -db db.fasta -out blast.out -evalue 0.0001

Полная выдача доступна по ссылке. Был получен список из 14 находок:

1ffy tRNA
Рис. 1 Список находок достоверных гомологичных белков, полученный программой blastp

Реконструкция и визуализация

Отредактированный файл с найденными последовательностями доступен по ссылке.

Произведём выравнивание при помощи команды muscle:

muscle -align blast_hits.fasta -output aligned.fa

Произведём построение дерева (файл с последовательностями предварительно переведём в формат phylip-relaxed скриптом по ссылке) с помощью программы fastme, используя модель p-distance:

fastme -i phr.fa -o 8.tre -pp

Полученная Newick формула доступна по ссылке.

1ffy tRNA
Рис. 2 Реконструкция дерева гомологов CLPX_ECOLI, полученных с помощью программы FastME и модели p-distance

Примеры пар ортологов: СLPX_SHEDO и СLPX_PSEAE ; СLPX_HAEIN и СLPX_PASMU ; HSLU_BARHE и HSLU_BRUSU

Примеры пар паралогов: HSLU_AGRFC и СLPX_AGRFC ; HSLU_PSEAE и СLPX_PSEAE ; HSLU_BARHE и СLPX_BARHE

1ffy tRNA
Рис. 3 Реконструированное дерево полученных находок, где разные ортологические группы схлопнуты

На Рис. 3 выделенные ранее ортологические группы схлопнуты, таких групп 2, и в обоих группах присутствует последовательность каждой из выбранных 7 бактерий (то есть группы полные). По поводу соответствия реконструкции групп ортологов и филогении бактерий (верная филогения бралась по рекомендации из этого изображения):

CLPX: соответствует филогении за исключением нескольких моментов: SHEDO и PSEAE почему-то отделились вместе в ветку, хотя должны отходить поочерёдно листьями; а AGRFC отделилось в ветку вместе с BRUSU, хотя должна был быть вмесе с BARHE.

HSLU: полностью соответствует филогении.