Учебный сайт студента ФББ МГУ

Киселёв Матвей Олегович

Отчёт о практикуме 2

Задание 1. Алгоритм BLASTP

Цель задания - найти в протеомах своих бактериях достоверные гомологи белка CLPX_ECOLI.

Fasta-файлы с протеомами всех бактерий я скопировал в свою папку на Kodomo, после чего оставил у себя только интересующие меня протеомы (список бактерий см. на странице практикума 1 в этом семестре).

Затем я создал базу данных для поиска алгоритмом BLAST и провёл этот поиск сo значением E-value 0,001. Вот последовательность команд, которой я это всё осуществил, находясь в своей директории:

cat * > proteomes.fa
makeblastdb -in proteomes.fa -dbtype prot
blastp -task blastp -query query.fa -db proteomes.fa -out blastp_out.txt -outfmt 6 -evalue 0.001

query.fa - файл с последовательностью CLPX_ECOLI.

Приведу ссылку на результат работы программы blastp.

Вот ссылку на список 35 находок BLAST в порядке уменьшения их E-value без дополнительной информации.

Задание 2. Реконструкция и визуализация

По последовательностям полученных находок гомологов с помощью программы FastME, реализованной на сайте NGPhylogeny.fr, построено их филогенетическое дерево. Параметры программы оставлялись как по умолчанию, за исключением следующих:

"Gamma distributed rates across sites" — No;

"Starting tree" — BIONJ;

"No refinement" - True;

Проводилось 100 бутстреп реплик.

Привожу ссылку на полученное неукоренённое дерево в Newick-формате. На нём можно найти пары как ортологов (CLPX_ECOLI-CLPX_YERP, HSLU_SHEDO-HSLU_PROMH, Q92M98_RHIME-Q7CT50_AGRFC), так и паралогов (CLPX_ECOLI-HSLU_ECOLI, A0A5P8YGZ0_YERPE-A0A5P8YB42_YERPE, B4EV83_PROMH-B4F2B3_PROMH).

Простите, изображение не загрузилось :( Проверьте подключение к сети
Рис. 1. Дерево гомологов, укоренённое в среднюю точку.

На полученном дереве наблюдаются хорошо различимые ортологические группы (см. рис. 2, 3).

Простите, изображение не загрузилось :( Проверьте подключение к сети
Рис. 2. Дерево гомологов, укоренённое в среднюю точку. Ортологические группы покрашены в разные цвета. Объяснения в тексте.
Простите, изображение не загрузилось :( Проверьте подключение к сети
Рис. 3. То же самое дерево. Схлопнуты те ортологические группы, в которых входит более 3 последовательностей.

На этих рисунках разным цветам соответствуют разные ортологические группы белков:

Группа CLPX - красный цвет. В неё входят белки всех 8 видов бактерий, филогения внутри группы соответствует таковой бактерий.

Группа HSLU - жёлтый цвет. В эту группу входят белки всех бактерий, кроме NEIMA. Филогения внутри группы соответствует таковой бактерий.

Синяя группа без названия (можно было бы её назвать FTSH по функции белка E. coli, который в неё входит): в неё тоже входят белки всех бактерий, кроме NEIMA. Филогения внутри группы соответствует таковой бактерий. Вероятно, последовательность A0A0U1RJ22_NEIMA, занимающая обособленное положение на нелокализованной ветви, в реальности относится именно к этой ортологической группе.

Белки, входящие в эту группу: A0A0H3GCZ6_BRUSU, Q7CT50_AGRFC, Q92M98_RHIME, Q12QI8_SHEDO, B4F2B3_PROMH, FTSH_ECOLI, A0A5P8YCE6_YERPE.