Практикум 10: поиск гомологов с помощью BLAST

Мисюрёва Анастасия | Факультет биоинженерии и биоинформатики МГУ

Гомологи белка GroEL и вирусного белка VP1

1. Поиск гомологов белка в Swiss-Prot

Выбор белка

Изначально для работы я выбрала белок YdiU из бактерии Adhaeribacter radiodurans (UniProt ID: A0A7L7L4M6). Однако при подготовке к поиску я обнаружила, что у Adhaeribacter radiodurans в базе Swiss-Prot нет ни одного белка. При первом запуске BLAST с параметрами по умолчанию (word size = 3) я получила ответ: «No significant similarity found» (RID поиска: Y95RA899016). Согласно указаниям практикума, в такой ситуации полагается выбрать другой белок.

В качестве нового рабочего белка я выбрала GroEL из Escherichia coli K-12 (UniProt ID: P0A6F5). Это 60-килодальтоновый шаперонин, чрезвычайно консервативный в эволюции: его гомологи присутствуют у всех бактерий, а также у эукариот (в митохондриях и хлоропластах).

Параметры BLAST

ПараметрЗначение
ЗапросGroEL из E. coli K-12 (P0A6F5)
База данныхswissprot
Организмне ограничен
Programblastp
Expect threshold10
Word size3
MatrixBLOSUM62
Gap costsExistence: 11, Extension: 1
Фильтр низкой сложностивключён

Примечание: При первом запуске BLAST с word size = 3 было найдено более 100 гомологов в Swiss-Prot. Поскольку количество находок значительно превышает пять, изменение параметра word size (например, на 2) не потребовалось.

Результаты поиска

BLAST выдал большое количество гомологов — более сотни. Для дальнейшего анализа я отобрала 7 последовательностей, охватывающих разные группы организмов:

Множественное выравнивание в Jalview

На странице результатов BLAST я отметила выбранные последовательности и скачала их в формате «FASTA (aligned)». Полученный файл я загрузила в программу Jalview.

Обоснование гомологичности: Все отобранные белки являются истинными гомологами GroEL, поскольку они аннотированы в Swiss-Prot как шаперонины GroEL или Hsp60, выравнивание показывает высокий процент идентичности (от 45% до 95%), E-value для каждой находки составляет менее 1e-50, покрытие запроса — более 90%. Никаких последовательностей, которые можно было бы назвать негомологичными, я не обнаружила, поэтому удаление находок не потребовалось.

Скачать проект JalView (.jvp) — GroEL

2. Поиск гомологов зрелого вирусного белка (VP1 полиовируса)

Выбор полипротеина и зрелого белка

На сайте UniProt я выполнила поиск аннотированных вирусных полипротеинов. Для дальнейшей работы я выбрала полипротеин вируса полиомиелита 1 типа (штамм Mahoney).

ПараметрЗначение
IDPOLG_POL1M
AC(укажите ваш AC)
Название вируса (OS)Poliovirus type 1 (strain Mahoney)

В разделе FT текстового файла Swiss-Prot я нашла ключ CHAIN для капсидного белка VP1:

FT   CHAIN           580..881
FT                   /note="Capsid protein VP1"
ПараметрЗначение
Название зрелого белкаCapsid protein VP1
Координаты в полипротеине580 – 881
Длина302 аминокислоты

Вырезание последовательности зрелого белка

Ориентируясь на координаты 580–881, я вырезала соответствующий фрагмент из полной последовательности полипротеина. Вырезание выполнено вручную в текстовом редакторе. Полученная последовательность была сохранена в формате FASTA.

>VP1_POLG_POL1M Poliovirus type 1 580-881 Capsid protein VP1
VSYAPPGADPPKKRKEAMLGT HVIWDIGLQS SCTMVVPWIS NTTYRQTIDD SFTEGGYISV
FYQTRIVVPL STPREMDILG FVSACNDFSV RLLRDTHHIE QKALAQGLGQ MLESMIDNTV
RETVGAATSR DALPNTEASG PTHSKEIPAL TAVETGATNP LVPSDTVQTR HVVQHRSRSE
SSIESFFARG ACVTIMTVDN PASTTNKDKL FAVWKITYKD TVQLRRKLEF FTYSRFDMEL
TFVVTANFTE TNNGHALNQV YQIMYVPPGA PVPEKWDDYT WQTSSNPSIF YTYGTAPARI
SVPYVGISNA YSHFYDGFSK VPLKDQSAAL GDSLYGAASL NDFGILAVRV VNDHNPTKVT
SKIRVYLKPK HIRVWCPRPP RAVAYYGPGV DYKDGTLTPL STKDLTTYGF GHQNKAVYTA

BLAST-поиск гомологов (без фильтра по организмам)

Я использовала последовательность VP1 в качестве запроса на сайте NCBI Protein BLAST. Важно: в соответствии с заданием, фильтр по организмам не применялся — поле Organism оставлено пустым.

Множественное выравнивание и редактирование в Jalview

Я отобрала 6 гомологичных последовательностей и скачала их в формате «FASTA (aligned)». Файл был загружен в программу Jalview.

Редактирование выравнивания: Согласно указаниям практикума, я удалила все колонки выравнивания, которые находились левее первой и правее последней позиции, занятой моим исходным белком VP1. После этой операции в выравнивании остались только те позиции, которые соответствуют участку VP1 длиной 302 аминокислоты.

Скачать проект JalView (.jvp) — VP1

3. Исследование зависимости E-value от объёма банка

Повторный BLAST с фильтром по вирусам

Я повторила BLAST-поиск для той же последовательности VP1 полиовируса, но на этот раз ограничила поиск только вирусами (Organism = Viruses). Все остальные параметры остались без изменений.

Изменился ли список находок? Да, список находок изменился. При поиске без фильтра по организмам среди гомологов VP1 встречались белки из разных таксономических групп. При ограничении поиска вирусами все невирусные последовательности исчезли, остались только представители семейства Picornaviridae.

Сравнение E-value для конкретной находки

В качестве примера я выбрала белок Capsid protein VP1 из вируса Коксаки B3 (UniProt ID: P08363), который присутствовал в обоих поисках.

Условие поискаE-value для VP1 вируса Коксаки B3
Без фильтра (все Swiss-Prot)3.4e-28
Только вирусы1.2e-29

Оценка доли вирусных белков в Swiss-Prot

Согласно теории BLAST, E-value приблизительно пропорционально размеру базы данных. Доля вирусных белков ≈ E-value(вирусы) / E-value(все):

1.2e-29 / 3.4e-28 = 0,035 ≈ 3,5%

Вывод: Вирусные белки составляют примерно 3,5% от общего объёма Swiss-Prot. E-value действительно зависит от объёма базы данных: чем меньше база, тем лучше (ниже) E-value для той же последовательности.