BLAST

Гомологи белка в Swissprot

BLAST (Basic Local Alignment Search Tool) является самым популярным биоинформатическим алгоритмом, поскольку прост в использовании и выполняет важные задачи. Он позволяет строить локальные выравнивания, а его гибкость привела к использованию в качестве инструмента поиска по базам данных биологических последовательностей. В этом задании мы должны были найти с помощью BLAST гомологи белка, который мы всецело исследуем уже на протяжении нескольких практикумов. Для этого нам нужно было разобраться с настраиваемыми параметрами поиска.

Таблица 1. Параметры поиска и их значения

Параметр поиска	Значение	Смысл параметра
Accession number/sequene	P19567	Код доступа последовательности в базе данных или сама последовательность
Database	UniProtKB/Swiss-Prot(swissprot)	База данных
Organism		Организмы или таксоны, по которым будет осуществлен поиск последовательности для выравнивания
Max target sequences	500	Максимальное число последовательностей в выдаче
Short queries	Yes	Автоподбор параметров в случае короткой последовательности
Expect threshold	10	Верхний порог по E-value, на котором прекращается поиск
Word size	3	Размер слова при разбиении последовательностей
Max matches in a query range	0	Максимальное число совпадений между исходной и найденной последовательностью
Matrix	BLOSUM62	Матрица весов замен
Gap Costs	Existence: 11 Extension: 1	Штрафы за открытие и продление гэпа
Compositional adjustments	Conditional composition score matrix adjustment	Матрица будет подстроена под конкретный аминокислотный состав (борьба с участками низкой сложности)
Filter low complexity regions	No	Маскировка участков низкой сложности
Mask for lookup table only	No	Маска (см. выше) будет применяться только на этапе поиска слов (см. word size), но не при построении выравнивания.
Mask lower case letters	No	Не учитывать строчные буквы

Поскольку результаты поиска хранятся на сервере всего 36 часов, мы сохранили текстовую выдачу программы (файл). Затем мы отобрали из результатов 6 возможных гомологов (3 из бактерий и 3 из растений) в формате fasta и провели с ними множественное выравнивание, как в предыдущем практикуме. Проект в Jalview можно скачать здесь, а можно и не скачивать, и посмотреть рисунок 1 (кликните, чтобы улучшить качество).

Рис. 1. Множественное выравнивание гомологов псевдоазуринаю. Кликните, чтобы улучшить качество

В качестве интересного обстоятельства можно отметить, что гомологом псевдоазурина является пластоцианин растений. На это указывает высокая консервативность некоторых участков в выравнивании, степень идентичности, полученное невероятно низкое E-value и функциональная особенность: пластоцианин, равно как и псевдоазурин связывают медь, и по всей видимости, медь-связывающий сайт должен быть консервативным.

Гомологи коронавирусного белка в Swissprot

В этом задании мы должны были проделать все то же самое, но для полученного нами зрелого коронавирусного белка из практикума по EMBOSS. Напомним, что мы взяли папаино-подобную протеазу из полипротеина 1ab (AC: P0C6X7) c координатами 819:2740. Параметры поиска остались теми же (поле организм мы не уточняли). Затем мы отредактировали выравнивание в Jalview: удалили все буквы находок, которые находились до первой и после последней буквы, выровненной с какой-либо буквой исходной протеазы. Файл выдачи запроса можно посмотреть здесь, а множественное выравнивание здесь.

Рис. 2. Множественное выравнивание гомологов папаино-подобной протеазы коронавируса. Кликните, чтобы улучшить качество

Исследование зависимости E-value от объёма банка

В этом задании мы проделали тот же поиск протеазы коронавируса, но ограничили таксон вирусами (Viruses (txid:10239)). Список находок сузился, поэтому мы дополнительно применили фильтр к первому запросу с таким же ограничением по таксонам. Грубо говоря, в выдачах те же виды, но поиск был осуществлен по разным выборкам. Обе выдачи можно посмотреть тут и тут. Сравним же E-value одних и тех же гомологов в разных запросах:

Таблица 2. Некоторые значения E-value с неограниченной и ограниченной выборкой

Accession	Было	Стало
Q8QL53.1	7,9	0,33
P13896.3	0.009	4*10^-4
P0C6W8.1	9*10^-150	4*10^-151

Получается, при уменьшении выборки, E-value уменьшается (то есть мера гомологии увеличивается). Оно и логично, ведь E-value это матожидание, то есть величина, зависящая от размера выборки. Из этого следует, что не стоит намеренно уменьшать выборку при поиске, дабы повысить E-value.

По теореме Карлина E-value = Kmn·e^-λS, где n - размер базы данных. Поскольку, эти значения прямо пропорциональны, можно оценить долю вирусных белков в Swissprot. Для этого нужно разделить E-value после введения фильтра на значение без фильтра. Во всех трех случаях получается примерно 0,04 или 4%.

Поиск "гомологов" бессмысленной последовательности

В этом задании нужно было пробластить случайную последовательность. Для ее получения, я нашел английскую версию автобиографического произведения "Другие берега" Владимира Набокова, взял от туда фразу:

On top of all this I present a fine case of colored hearing. Perhaps “hearing” is not quite accurate, since the color sensation seems to be produced by the very act of my orally forming a given letter while I imagine its outline.

Затем удалил из неё пробелы, знаки препинания, а также буквы B, J, O, U, X, Z, не обозначающие никаких "нормальных" аминокислот. К слову, в русской версии фраза звучит интереснее:

Кроме всего я наделен в редкой мере так называемой audition coloree – цветным слухом. Не знаю, впрочем, правильно ли тут говорить о «слухе»: цветное ощущение создается по-моему осязательным, губным, чуть ли не вкусовым чутьем. Чтобы основательно определить окраску буквы, я должен букву просмаковать, дать ей набухнуть или излучиться во рту, пока воображаю ее зрительный узор.

В итоге получилась вот такая последовательность:

ntpfallthisipresentafinecasefclredhearingperhapshearingisntqiteaccratesincetheclrsensatinseemsteprdcedytheveryactfmyrallyfrmingagivenletterwhileiimagineitstline

После, мы пробластили нашу последовательность и получили следующую выдачу. Здесь у нас целый "зоопарк". И регулятор апоптоза из моллюска, и аминопептидаза стрептомицет, и шаперон из сальмонеллы, и синаптический белок крысы. Очень вряд ли, что эти белки являются гомологами, даже несмотря на довольно низкий E-value (0,6). Не очень высокое покрытие, низкая степень идентичности и малое число находок, возможно, в совокупности говорят о том, что наша случайная последовательность не имеет биологического смысла.