Программа BLAST

1. Поиск гомологов белка в базе данных Swissprot

В данной части практикума с помощь программы BLAST был произведен поиск гомологов белка Q2GA79_NOVAD. Ранне этот белок встречался в практикуме 8.

Так как наш белок находится в автоматической базе данных TrEMBl, то для поиска скачаем последовательность в fasta-формате и вставим ее в программу. В таблице 1 (Table. 1.) представлены параметры при которых производился поиск гомологов.

Table. 1. Параметры поиска и их описание.

Название параметра	Используемое значение при поиске	Описание
Program	blastp	В данном поиске использовался рекомендуемый алгоритм blastp
Word size	3	Минимальная длина начального точного соответствия. Большой размер слова будет давать меньшее количество результатов, которые при этом будут содержать больше специфических совпадений. Маленький размер слова будет давать больше предполагаемых гомологов, но совпадения внутри некоторых из них будут менее специфичны. По умолчанию Word Size стоит 6. Параметр был изменен на меньший - 3, чтобы не потерять возможных гомологов.
Expect value	10	Верхний порог E-value. Чем он ниже, тем более вероятна гомология между найденым и изначальным белком. Использовалось значение по умолчанию (10).
Hitlist size	500	Этот параметр задает максимальную длину среди гомологичных последовательностей. Значение было изменено на 500 (по умолчанию стоит 100) так как изначальная молекула имеет длину 351 а.о.
Gapcosts	11, 1	Штраф за открытие нового гэпа и штраф за его продление. Использовались данные по умолчанию: 11 за открытие и 1 за продолжение.
Matrix	BLOSUM62	В данном поиске использовалась матрица по умолчанию BLOSUM62
Low Complexity Filter	Yes	Маскирует сегменты последовательности, которые имеют низкую композиционную сложность. То есть учестки, которые статистически значимые, но биологически неинтересны. В нашем случае этот фильтр не особо актуален. Был произведен аналогичный поиск без Low Complexity Filter, количество выдаваемых потенциальных гомологов не изменилось.
Organism	-	В данном поиске не был указан конкретный организм, поэтому поиск производился по всем.

BLAST выдал 26 последовательностей возможных гомологов. Текстовый вариант результата программы тут. Выберем 7 из них и построим в Jalview множественное выравнивание: P80402.2; P0CT50.1; Q5AUW9.1; Q8TDX5.1; Q8R519.2; Q0II68.1; Q8R5M5.1. Результат выравнивания представлен на картинке 1 (Fig. 1.). Ссылка на проект в Jalview тут.

align — Fig. 1. Множественное выравнивание в Jalview.

Из выравнивания видно, что у последних четырех белков гораздо больше совпадающих участков. Также о их вероятной гомологии говорит то, что их функциональные мнемоники совпадают - ACMSD_HUMAN; ACMSD_MOUSE; ACMSD_BOVIN; ACMSD_RAT. С нашем же белком гомология более выражена с первыми тремя (мнемоники которых не "ACMSD") - DBD23_ASPOR(P80402.2); SDC_CUTMO(P0CT50.1); ORSB_EMENI(Q5AUW9.1). Построим для них отдельное выравнивание, раскрасим по проценту идентичности, результат представлен на картинке 2 (Fig. 2.). Ссылка на проект.

Из выравнивания выше можно выделить несколько консерванивных участков. Например, 17-20 с точностью до замены A-S с положительым матричным коэффициентом, 153-158 с точностью до нескольких замен, 370-377 с точностью до одной замены. Это свидительствует о вероятной гомологии этих белков. Также порядок расположения белков во всех выравниваниях выше соответствовал их расположению в выводе BLAST. То есть белки из второго выравнивания имеют лучшие характеристики, они представлены в таблице 2.

Table. 2. Характеристики второго поиска.

Total score	Query Cover	E-value	% identity	Accesion
169	86%	2e-48	29.26	P80402.2
127	84%	2e-32	25.71	P0CT50.1
123	73%	3e-31	30.71	Q5AUW9.1

2. Поиск в Swissprot гомологов последовательности зрелого вирусного белка SARS

В данной части практикума был также выполнен поиск гомологов с помощью программы BLAST. На этот раз мы ищем гомологию со зрелым коронавирусным белком, который был использован в практикуме 9. В полипротеине 1ab (UniProt AC P0C6X7) данный белок находится на 5903 - 6429 промежутке. Гуанин -N7- метилтрансфераза - это фермент, катализирующий следующую химическую реакцию:

S-adenosyl-L-methionine + G(5')pppR-RNA <=> S-adenosyl-L-homocysteine + m7G(5')pppR-RNA (mRNA containing an N7-methylguanine cap) [1]

BLAST был запущен с такими же параметрами как в пункте 1. Изменена была соответственно только входящая fasta-последовательность. Blast выдал 45 последовательностей, первая из которых наш полипротеин 1ab. Ссылка на результаты поиска в текстовом формате. Выберем 4 первых предполагаемых гомологичных последовательностей: P0C6W6.1; P0C6V9.1; P0C6W2.1; K9N7C7.1.

Далее в Jalview построим множественное выравнивание выбранных белков с исходным. Для того чтобы сравнивать только участки полипротеина, соответствующие нашему белку, скачаем из BLAST нужные последовательности в формате fasta(aligned sequences). На Fig. 3. представлен результат выравнивания, также тут есть ссылка на проект.

Первые четыре белка (включая исходный) совпадают почти полностью - каждый имеет процент идентичности более 98%, покрытие у каждого 100%, E-value у каждого 0.0 (это значит что значение, меньше, чем самое маленькое из тех, что может хранить программа, что однозначно свидительствует о их гомологии. Также вероятность гомологии увеличивает тот факт, что данные белки выделены из близких вирусов: Human SARS coronavirus (SARS-CoV); Bat coronavirus Rp3/2004; Bat coronavirus 279/2005; Bat coronavirus HKU3. Последний белок K9N7C7 из вируса Human coronavirus EMC тоже имеет достаточно много полностью консервативных столбцов с остальными молекулами: 4-12; 73-79; 86-93; 106-116 и другие. Это может означать, что функция последнего белка также сходна с функцией первых четырех.

3. Исследование зависимости E-value от объёма банка

Повторим поиск из пункта 2, но будем искать не из всего Swissprot, а добавим ограничение на организм - только из Viruses. Количество подходящих последовательностей увеличилось- BLAST выводит 54 вместо 45 (включая исходный полипротеин). Из-за того что выбранная база данных уменьшилась, поменялись и E-value каждой последовательности. Выберем белок P36294.1 из вируса Groundnut ringspot virus, который присутствует в обоих поисках и посмотрим как изменился его E-value. В первом случае белок имел значение 1.3, во втором 0.056. С помощью формулы С.Карлина посчитаем, какую долю от Swissprot составляют белки из вирусов:

$\frac{E-value_{2}}{E-value_{1}} = \frac{km_{2}n*e^{-\lambda S}}{km_{1}n*e^{-\lambda S}} = \frac{m_{2}}{m_{1}} = \frac{0.056}{1.3} * 100\% \thickapprox 4.31\%$

Таким образом, белки из вирусов в базе данных Swissprot составляют примерно 4.3%.

Литература

1. Guanine-N7-methyltransferase. Ссылка.

Учебный сайт Лидии Гаркуль

Программа BLAST

1. Поиск гомологов белка в базе данных Swissprot

2. Поиск в Swissprot гомологов последовательности зрелого вирусного белка SARS

3. Исследование зависимости E-value от объёма банка

Литература