Практикум 10. BLAST

Поиск в Swiss-Prot гомологов белка диинозинтрифосфат/ксантозинтрифосфат пирофосфотазы

Поиск был произведен по последовательности белка в fasta-формате.

Параметры, которые были использованы при запуске BLAST:

Database: UniProtKB/Swiss-Prot(swissprot)

Algoritm: blastp(protein-protein BLAST)

Algoritm parameters:

Max target sequences: 500 (максимальное число находок было выставлено таким, чтобы были отображены все возможные гомологичные белки, а не только первые 100)

Expect threshold: 0.05 (Пороговое значение E-value)

Word size: 5

Matrix: BLOSUM62

Gap Costs: за открытие: 11 За продолжение: 1

Все остальные параметры были оставлены по умолчанию.

В результате было найдено 257 белковых последовательностей. Текстовую выдачу программы можно посмотреть здесь.

Для построения множественного выравнивания были выбраны первые 7 белков и исходный белок.

Проект выравнивания Jalview

Все 8 белков вероятно гомологичны друг другу, т.к есть много гомологичных участков (консерваивны на 100%): 7-8, 12-14, 28-31, 42-44, 46-47, 49-51, 54-55, 66-73, 82-83, 86-88, 90-91, 99-100, 117-119, 123-124, 154-159, 170-171, 177-178, 181-184, 187-188.

Поиск в Swiss-Prot гомологов зрелого вирусного белка, вырезанного из полипротеина

С помощью запроса (taxonomy_id:10239) AND (protein_name:polyprotein) было найдено 553624 полипротеина вируса. Был выбран белок Polyprotein P2A.

ID: P2A_CFMVN

Amino acids: 568 AA

AC: Q89504; Q0PW24; Q76PL5;

Название вируса: Cocksfoot mottle virus

Я выбрала зрелый белок Serine protease. Координаты белка 131..319. Средствами EMBOSS была вырезана последовательность этого зрелого белка. При запуске BLAST была получена данная текстовая выдача.

Далее было выполнено множественное выравнивание последовательности выбранного зрелого белка и всех белков в выдаче. Из выравнивания были удалены беки с AC Q83470 и P21405, у которых все идентичные участки были очень непродолжительные.

Проект выравнивания Jalview

Оставщиеся белки вероятно гомологичны друг другу, т.к можно выделить участки с 100% консервативностью: 15-19, 26-27, 43-44, 46-48, 61-62, 80-83, 87-89, 93-94, 95-97, 101-102, 104-106, 125-128, 146-150, 152-154, 160-161, 173-175.

Исследование зависимости E-value от объёма банка

При применении к прошлому поиску фильтра по огрганизмам, ограничивая поиск вирусами (Viruses), список находок изменился (текстовая выдача).Список находок изменился, добавился еще один белок(E-Value=0.004). E-Value всех находок из предыдушего запроса изменился (таблица 1).

Таблица 1. Различия значений Е-value
AC без применения фильтра по организму с применением фильтра по организму
Q89504.2 6e-135 3e-136
Q0PW25.1 1e-128 6e-130
Q83470.2 2e-25 7e-27
P21405.2 2e-25 1e-26
O72157.2 7e-23 3e-24
O73564.2 9e-23 4e-24

Расмотрим находку Replicase polyprotein P2AB его E-value изменился с 2e-25 до 1e-26. Е-value вычисляется по формуле(рисунок 1), где n — размер базы данных. Поэтому для того, чтобы узнать долю вирусных белков в Swiss-Prot мы можем поделить значение E-value при использовании фильтра по организмам на значение E-value до применения фильтра по организмам(когда поиск производился по всему Swiss-Prot): 1e-26/2e-25=0.05(5%).Можно сделать вывод, что доля вирусных белков в Swiss-Prot примерно равна 5%

E-value
Рисунок 1. Вычисление E-value