Практикум №10

Программа BLAST

1. Гомологи выданного белка в SwissProt

В данном разделе я буду находить гомологи фермента пара-гидроксибензоат 3-монооксигеназы (AC: P20586).

При запуске программы BLAST на web-ресурсе NCBI я использовал следующие параметры:

1. Enter Query Sequence: P20586 (AC данного белка).

2. Database: UniProtKB/Swiss-Prot(swissprot).

3. Algorithm: blastp (protein-protein BLAST).

4. Max target sequences: 100 (В выводе в итоге всего 44 находки, поэтому большее количество брать бессмысленно).

5. Expect threshold: 0.05 (Значение по умолчанию для максимального E-value находок)

6. Word size: 6 (Значение по умолчанию. Не брал меньшее значение, поскольку не добивался максимальной точности).

7. Matrix: BLOSUM62 (Сандартная матрица аминокислотных замен).

8. Gap Costs: Existence: 11 Extension: 1 (Типичный вариант штрафов за gap)

9. Compositional adjustments: Conditional compositional score matrix adjustment.

10. Filter: Low complexity regions (Без учёта участков низкой сложности).

Текстовая выдача программы: 6043PME1013-Alignment.txt

Выбрав находки с AC P00438.2, Q03298.1, O07561.1, B5XQI9.1, A1TCX2.1, Q54530.1 и скачав их в FASTA формате вместе с исходным белком, я получил файл, который затем загрузил в Jalview.

Ссылка на проект: PHBH_project.jvp.

Очевидно, что белок с AC P0C6X5.1 гомологичен исходному, поскольку у них очень незначительное число несовпадений (Что легко можно заметить и из текстовой выдачи BLAST: Per. Identity = 99.49%). Этот белок выполняет ту же функцию, что и белок-запрос, но у вида Pseudomonas fluorescens, входящего в тот же род (Исходный белок из Pseudomonas aeruginosa). В белке с AC Q03298.1 нашёлся довольно протяжённый участок высокой степени сходства с запросом (например, участки 17-109, 124-160 в выравнивании и много других), что может говорить о высокой вероятности гомологии. Белок O07561.1 имеет небольшой участок сходства с исходным (325-337) и некоторое количество локальных сходств (не более чем в две аминокислоты, но чаще в одну), но говорить о гомологии здесь можно с невысокой степенью вероятности. Белки B5XQI9.1, A1TCX2.1, Q54530.1 я удалил из-за большого количества участков, сильно отличающихся от исходного (например, в выравнивании участки: 1-16, 108-120 для белка Q54530, 473-623 и некоторые другие).

2. Гомологи зрелого вирусного белка, вырезанного из полипротеина

Я выбрал вирусный полипротеин со следующими характеристиками:

ID: R1AB_CVH22

AC: P0C6X1

OS: Human coronavirus 229E (HCoV-229E)

Я выбрал белок из этого полипротеина под названием Helicase. Его координаты - 4996..5592

Последовательность выбранного сегмента полипротеина в формате fasta: Hel.fasta

Выполнив ту же последовательность действий, что я в первом задании, я получил текстовый вывод из Blast: 6B83R6EN013-Alignment.txt

Выбрав находки с AC P0C6X5.1, P0C6W4.1, P0C6W6.1, Q0VGT4.2, Q86YA3.3, Q9HEH1.1, Q8GYD9.1, я загрузил их множесвенное выравнивание (в совокупности с изначальным белком) в fasta формате в Jalview. Проект: He_project.jvp

Проект JalView, в котором на основе дерева было выделено 4 группы: вирусы, животные (в данном случае исключительно млекопитающие), растения и грибы.

3. Исследование зависимости E-value от объёма банка

Повторный поиск с фильтром выявил 34 находки (в отличие от 39, как было в задании №2). Следовательно, такого рода хеликазы встречаются не только у вирусов. Возможно, они попадали в геномы других организмов (в том числе и Homo sapiens, как можно заметить из проекта в задании №2) путём давних встроек вирусов в геном, а потом далеко расходились под действием мутаций от своих предшественников в течении многих лет.

Для оценки доли вирусных белков в Swiss-prot я выбрал находу Q008X6.1 организма White bream virus. E-value этого белка изменился с 1e-03 до 6e-05, то есть уменьшился в 16,7 раз. Поскольку из теоремы С.Карлина следует, что E-value линейно уменьшается с уменьшением размера базы данных, то можно сделать вывод, что в Swiss-prot имеется около 6% вирусных белков.

Кирилл Кузенков, студент второго курса ФББ