Для выполнения практикума мной были выбраны бактерии:
Далее в отдельной директории выбранные протеомы были объединены в один файл. Затем на основе выбранных протеомов была создана локальная база данных для запуска blastp при помощи команды:
makeblastdb -in db.fasta -dbtype prot
После чего был запущен blastp на основе созданной базы данных. В качестве запроса была подана последовательность белка CLPX_ECOLI (файл). Для отбора достоверных гомологичных белков среди отобранных бактерий был поставлен порог на E-value в 0.0001.
blastp -task blastp -query ref.fasta -db db.fasta -out blast.out -evalue 0.0001
Полная выдача доступна по ссылке. Был получен список из 14 находок:
Отредактированный файл с найденными последовательностями доступен по ссылке.
Произведём выравнивание при помощи команды muscle:
muscle -align blast_hits.fasta -output aligned.fa
Произведём построение дерева (файл с последовательностями предварительно переведём в формат phylip-relaxed скриптом по ссылке) с помощью программы fastme, используя модель p-distance:
fastme -i phr.fa -o 8.tre -pp
Полученная Newick формула доступна по ссылке.
Примеры пар ортологов: СLPX_SHEDO и СLPX_PSEAE ; СLPX_HAEIN и СLPX_PASMU ; HSLU_BARHE и HSLU_BRUSU
Примеры пар паралогов: HSLU_AGRFC и СLPX_AGRFC ; HSLU_PSEAE и СLPX_PSEAE ; HSLU_BARHE и СLPX_BARHE
На Рис. 3 выделенные ранее ортологические группы схлопнуты, таких групп 2, и в обоих группах присутствует последовательность каждой из выбранных 7 бактерий (то есть группы полные). По поводу соответствия реконструкции групп ортологов и филогении бактерий (верная филогения бралась по рекомендации из этого изображения):
CLPX: соответствует филогении за исключением нескольких моментов: SHEDO и PSEAE почему-то отделились вместе в ветку, хотя должны отходить поочерёдно листьями; а AGRFC отделилось в ветку вместе с BRUSU, хотя должна был быть вмесе с BARHE.
HSLU: полностью соответствует филогении.