Поиск по паттерну в банке Swiss-Prot

Создание паттернов для поиска и распознавания аминокислотных последовательностей

Найдено 5 предполагаемых ортологов белка CAPP_ECOLI: Согласно условиям задания в первом приближении признаком ортологичности считается cовпадение названий белков из разных организмов, процент идентичности (I) в диапазоне 40–80%, a E-value не больше 0.001.

CAPP_PHOLL: I = 76%, E-value = 0;
CAPP_PHOPR: I = 65%, E-value = 0;
CAPP_VIBF1: I = 65%, E-value = 0;
CAPP_PASMU: I = 64%, E-value = 0;
CAPP_HAEIN: I = 64%, E-value = 0.

Затем с помощью программы MUSCLE построено множественное выравнивание последовательности моего белка и его ортологов, а также выбран фрагмент из 12 а.о. этого выравнивания для дальнейшего изучения:

На основе этого куска выравнивания предлагается построить три паттерна, по которым потом нужно попробовать найти последовательности данных белков, а также всего остального, что найдётся, в банке SwissProt и сравнить эффективность поиска того или иного паттерна. Вообще, что такое "паттерн" в конкретной задаче? Видимо, это некий "шаблон", "характерный участок" аминокислотной последовательности белка, необходимый критерий поиска в банке - наличие данного паттерна непосредственно в последовательности выдаваемых в результатах белков.

Результаты поиска последовательностей банка SwissProt, включающих мотивы, соответствующие каждому из полученных паттернов:

Характеристика паттерна	Паттерн	Количество последовательностей Swiss-Prot с мотивами, удовлетворяющими данному паттерну.	Количество найденных последовательностей из нашей выборки
Фрагмент последовательности	LIAQSWHTDEIR	9	Один, собственно, сам CAPP_ECOLI
Сильный	L[LI]A[QE][SA]WH[TS][ND][EV]IR	21	Паттерн "сильный" - отыскивает всех до одного
Слабый	L{NDEQ}A[QE][SA]WH[TS]{ILMV}[EV]X(2)	23	Найдены все
Ещё слабей	L{NDEQ}AX(3)H[TS]{ILMV}[EV]X(2)	138	Найдены все, а также очень много всего разного

А теперь комментарии к таблице результатов:

Первый наш поиск в базе данных PROSITE основывался на конкретном фрагменте последовательности CAPP_ECOLI, хоть и недлинном совсем (12 а.о.), но всё-таки он оказался достаточно жёсткой рамкой, чтобы весьма узко ограничить пространство для поиска, найдено всего 9 белков, из которых нет ни одного гомолога из нашей выборки, кроме самого CAPP_ECOLI, который по своей же собственной последовательности ищется без проблем, однако толку от этого мало. Все остальные восемь последовательностей есть ни что иное как те самые ортологи с процентом идентичности выше 80%, которые нам, понятное дело, не подходят. Зачем искали? Данный поиск является показателем того, как делать НЕ надо. Если биоинформатик сталкивается с задачей найти гомологи белка со средней степенью идентичности, то искать их по последовательности самого белка бесполезно - не найдёт, по крайней мере таким способом, каким мы сейчас располагаем.
Во второй раз мы составляем паттерн. Как это делается? Есть три основных приёма: [LI] - означает логическую цепочку "либо L, либо I и никто больше"; X(N) - последовательность из любых а.о. длиной в N штук; {ILMV} равноценно "все а.о., кроме I,L,M,V". Таким образом составленный в качестве "сильного" паттерн L[LI]A[QE][SA]WH[TS][ND][EV]IR оставляет нам мало свободы выбора, ибо всего комбинаций из а.о., удовлетворяющих этому паттерну, существует 12. Другое дело, что в белках комбинации могут повторяться, поэтому мы и имеем на выходе белков явно больше 12, а именно 21. На этот раз успешно были найдены все шесть белков, включая CAPP_ECOLI. Данный поиск демонстрирует нам, как можно найти гомологи средней идентичности при минимальном количестве найденных последовательностей.
Однако не всегда можно, зная изначальную последовательность изучаемого белка, построить такой "сильный" и однозначный паттерн, мы ведь можем и не знать, какие а.о. следует разрешать, ибо не знаем последовательности гомологов. В таком случае следует строить "слабый" паттерн с более мягкими условиями. Допустим, видим мы к примеру лейцин. Про лейцин мы знаем достаточно, чтобы составить какое-нибудь условие в паттерне. Ну во-первых, лейцин незаряжен, инертен, гидрофобен. Разумно предположить, что у гомологов лейцин останется либо тем же самым лейцином, либо его заменит другой а.о., но с теми же свойствами. То есть в таком случае условие в паттерне будет выглядеть так - [LIVM] или {NDEQ}, (последнее условие с более высокой "пропускной способностью"). Таким образом, составление слабого паттерна является наиболее адекватным и реальным решением поставленной задачи, так как позволяет составить паттерн исходя ТОЛЬКО из последовательности CAPP_ECOLI, а также получить максимальное количество нужных белков.
Четвёртый (необязательный) поиск видится мне отнюдь не безполезным, а достаточно показательным. Что я сделала? Ещё больше смягчила паттерн. Смягчила до такой степени, что оставила всего лишь ЧЕТЫРЕ однозначно, либо двояко определённых а.о. из двенадцати. То есть по сути мы ищем гомологи по четырём заведомо совпадающим а.о. в четырёх положениях при учёте, что длина последовательности гомолога колеблется от 850 до 950 а.о. (длина CAPP_ECOLI - 883 а.о.). Казалось бы, абсурд. Однако что видно в результате? 138 белков и все шесть найдены. (Было бы странно, если б они не были найдены.) Среди найденного, есть белки всевозможных семейств, например, такие белки, как ASCG_ECOLI, BMP7_HUMAN, CBX2_MOUSE, COG7_DROME и другие. Такое огромное (хотя вряд ли сотня - это так уж и много белков) количество информационного шума нам ненужно, НО: лишь при условии того, что мы ищем гомологи, а не, к примеру, ищем белки других семейств с участками последовательности, похожими на нашу. Такая задача вполне возможна, почему бы и нет?

©Чебышева Анна, 2005