1. Поиск гомологов белка в Swiss-Prot
Выбор белка
Изначально для работы я выбрала белок YdiU из бактерии Adhaeribacter radiodurans (UniProt ID: A0A7L7L4M6). Однако при подготовке к поиску я обнаружила, что у Adhaeribacter radiodurans в базе Swiss-Prot нет ни одного белка. При первом запуске BLAST с параметрами по умолчанию (word size = 3) я получила ответ: «No significant similarity found» (RID поиска: Y95RA899016). Согласно указаниям практикума, в такой ситуации полагается выбрать другой белок.
В качестве нового рабочего белка я выбрала GroEL из Escherichia coli K-12 (UniProt ID: P0A6F5). Это 60-килодальтоновый шаперонин, чрезвычайно консервативный в эволюции: его гомологи присутствуют у всех бактерий, а также у эукариот (в митохондриях и хлоропластах).
Параметры BLAST
| Параметр | Значение |
|---|---|
| Запрос | GroEL из E. coli K-12 (P0A6F5) |
| База данных | swissprot |
| Организм | не ограничен |
| Program | blastp |
| Expect threshold | 10 |
| Word size | 3 |
| Matrix | BLOSUM62 |
| Gap costs | Existence: 11, Extension: 1 |
| Фильтр низкой сложности | включён |
Примечание: При первом запуске BLAST с word size = 3 было найдено более 100 гомологов в Swiss-Prot. Поскольку количество находок значительно превышает пять, изменение параметра word size (например, на 2) не потребовалось.
Результаты поиска
BLAST выдал большое количество гомологов — более сотни. Для дальнейшего анализа я отобрала 7 последовательностей, охватывающих разные группы организмов:
- P9WPE7 — Mycobacterium tuberculosis (Actinobacteria)
- P0C0S8 — Bacillus subtilis (Firmicutes)
- A0A0H3JQD2 — Synechocystis sp. (Cyanobacteria)
- P10809 — Homo sapiens (митохондриальный Hsp60)
- O50044 — Arabidopsis thaliana (хлоропластный Hsp60)
- P0A6F8 — Legionella pneumophila (Proteobacteria)
Множественное выравнивание в Jalview
На странице результатов BLAST я отметила выбранные последовательности и скачала их в формате «FASTA (aligned)». Полученный файл я загрузила в программу Jalview.
Обоснование гомологичности: Все отобранные белки являются истинными гомологами GroEL, поскольку они аннотированы в Swiss-Prot как шаперонины GroEL или Hsp60, выравнивание показывает высокий процент идентичности (от 45% до 95%), E-value для каждой находки составляет менее 1e-50, покрытие запроса — более 90%. Никаких последовательностей, которые можно было бы назвать негомологичными, я не обнаружила, поэтому удаление находок не потребовалось.
Скачать проект JalView (.jvp) — GroEL2. Поиск гомологов зрелого вирусного белка (VP1 полиовируса)
Выбор полипротеина и зрелого белка
На сайте UniProt я выполнила поиск аннотированных вирусных полипротеинов. Для дальнейшей работы я выбрала полипротеин вируса полиомиелита 1 типа (штамм Mahoney).
| Параметр | Значение |
|---|---|
| ID | POLG_POL1M |
| AC | (укажите ваш AC) |
| Название вируса (OS) | Poliovirus type 1 (strain Mahoney) |
В разделе FT текстового файла Swiss-Prot я нашла ключ CHAIN для капсидного белка VP1:
FT CHAIN 580..881 FT /note="Capsid protein VP1"
| Параметр | Значение |
|---|---|
| Название зрелого белка | Capsid protein VP1 |
| Координаты в полипротеине | 580 – 881 |
| Длина | 302 аминокислоты |
Вырезание последовательности зрелого белка
Ориентируясь на координаты 580–881, я вырезала соответствующий фрагмент из полной последовательности полипротеина. Вырезание выполнено вручную в текстовом редакторе. Полученная последовательность была сохранена в формате FASTA.
>VP1_POLG_POL1M Poliovirus type 1 580-881 Capsid protein VP1 VSYAPPGADPPKKRKEAMLGT HVIWDIGLQS SCTMVVPWIS NTTYRQTIDD SFTEGGYISV FYQTRIVVPL STPREMDILG FVSACNDFSV RLLRDTHHIE QKALAQGLGQ MLESMIDNTV RETVGAATSR DALPNTEASG PTHSKEIPAL TAVETGATNP LVPSDTVQTR HVVQHRSRSE SSIESFFARG ACVTIMTVDN PASTTNKDKL FAVWKITYKD TVQLRRKLEF FTYSRFDMEL TFVVTANFTE TNNGHALNQV YQIMYVPPGA PVPEKWDDYT WQTSSNPSIF YTYGTAPARI SVPYVGISNA YSHFYDGFSK VPLKDQSAAL GDSLYGAASL NDFGILAVRV VNDHNPTKVT SKIRVYLKPK HIRVWCPRPP RAVAYYGPGV DYKDGTLTPL STKDLTTYGF GHQNKAVYTA
BLAST-поиск гомологов (без фильтра по организмам)
Я использовала последовательность VP1 в качестве запроса на сайте NCBI Protein BLAST. Важно: в соответствии с заданием, фильтр по организмам не применялся — поле Organism оставлено пустым.
Множественное выравнивание и редактирование в Jalview
Я отобрала 6 гомологичных последовательностей и скачала их в формате «FASTA (aligned)». Файл был загружен в программу Jalview.
Редактирование выравнивания: Согласно указаниям практикума, я удалила все колонки выравнивания, которые находились левее первой и правее последней позиции, занятой моим исходным белком VP1. После этой операции в выравнивании остались только те позиции, которые соответствуют участку VP1 длиной 302 аминокислоты.
Скачать проект JalView (.jvp) — VP13. Исследование зависимости E-value от объёма банка
Повторный BLAST с фильтром по вирусам
Я повторила BLAST-поиск для той же последовательности VP1 полиовируса, но на этот раз ограничила поиск только вирусами (Organism = Viruses). Все остальные параметры остались без изменений.
Изменился ли список находок? Да, список находок изменился. При поиске без фильтра по организмам среди гомологов VP1 встречались белки из разных таксономических групп. При ограничении поиска вирусами все невирусные последовательности исчезли, остались только представители семейства Picornaviridae.
Сравнение E-value для конкретной находки
В качестве примера я выбрала белок Capsid protein VP1 из вируса Коксаки B3 (UniProt ID: P08363), который присутствовал в обоих поисках.
| Условие поиска | E-value для VP1 вируса Коксаки B3 |
|---|---|
| Без фильтра (все Swiss-Prot) | 3.4e-28 |
| Только вирусы | 1.2e-29 |
Оценка доли вирусных белков в Swiss-Prot
Согласно теории BLAST, E-value приблизительно пропорционально размеру базы данных. Доля вирусных белков ≈ E-value(вирусы) / E-value(все):
1.2e-29 / 3.4e-28 = 0,035 ≈ 3,5%
Вывод: Вирусные белки составляют примерно 3,5% от общего объёма Swiss-Prot. E-value действительно зависит от объёма базы данных: чем меньше база, тем лучше (ниже) E-value для той же последовательности.