ФББ 2013-2014

Поиск по паттерну

Мотив - консервативный участок в множественном выравнивании последовательностей, который чаще всего в настоящем белке выполняет определённую функцию. Локальное выравнивание более предпочтительно для поиска мотивов, т.к. оно не рассматривает негомологичные участки, максимально улучшая выравнивания именно консервативных фрагментов. Для любого мотива можно записать паттерн - это обобщённая математическая запись мотива, построенная по множетсвенному выравниванию последовательностей. Паттерны можно использовать для поиска гомологичных последовательностей, потому что он обозначает консервативный и эволюционно обособившийся участок, который обязательно присутствует у всех гомологов.

Паттерны можно делать сильными и слабыми, преследуя разные цели. Сильный паттерн - такой паттерн, который находит только гомологичные последовательности. Он, как правило, записывается довольно строго и однозначно. Слабый паттерн - такой паттерн, с помощью которого можно найти максимально большое количество гомологов. В слабом паттерне обычно больше вариаций аминокислот в разных позициях. Сильные паттерны - это хорошо, но по ним можно не найти дальних гомологов. По слабому паттерну наоборот, можно получить какое-то количество случайных находок, которые не являются гомологами.

Поиск мотивов можно осуществлять с помощью сервиса ProSite. На вход можно подать последовательности, тогда на выходе будет мотив. Можно решить и обратную задачу - подать на поиск паттерн, соответствующий интересующему нас мотиву, и получить на выходе последовательности, в которых этот мотив есть.

Для выполнения задания было взято множественное выравнивание из практикума 9. Сначала я решила посмотреть, какой мотив найдёт Prosite в этих белках. На вход было подано несколько последовательностей из выравнивания (их Uniprot идентификаторы):

Q6MFY2_RAT
Q3U531_MOUSE
B4DVK7_HUMAN
G3TYM2_LOXAF
F7GYI9_MACMU
Q333M6_2AVES
G5BQE5_HETGA
G1QAC6_MYOLU
G3HVV9_CRIGR

Во всех полследовательностях был найден так называемый "IG-like" мотив. Из описания этого домена на Prosite здесь): домен является одним из самых распространённых в белках животных клеток. Он всегда участвует в связывании молекул - маленьких лигандов, гормонов и огромных мышечных белков. На рисунке 1 (а) показан домен, определённый в одной из последовательностей. На рисунке 1 (б) найденный Prosite фрагмент выделен красным прямоугольником, по нему я и буду строить паттерн.

Рис.1. Найденный с помощью Prosite мотив. а (верхний) - определение домена в одной из поданных на вход последовательности; б (нижний) - найденный с помощью Prosite участок, показанный в множественном выравнивании.

Как можно заметить, найденный домен довольно большой, поэтому я решила взять из него наиболее консервативный в данных последовательностях мотив и составить паттерны по нему.

Сильный мотив выгдялел так:

P-x-[TAV]-x-V-x-[HKQM]-X(1,7)-T-L-X-C-[WRQ]-A-[LHY]-X-F-Y-P-X(1,2)-I-x(1,3)-W

Этот мотив довольно точно отражает консенсусную последовательность исходного множественного выравнивания на данном участке. Видно, что в этом мотиве много чётко зафиксированных позиций. Количество находок - 23 (из них в SwissProt - 4, 19 - в TrEMBL).

Слабый мотив:

P-x-[TAVS]-x-V-X(1,9)-T-L-X-C-[WRQEKD]-A-X(1,2)-F-Y-P-X(1,2)-I-x(1,3)-W

Было найдено 403 удовлетворяющих мотиву последовательности, из них в SwissProt - 7, в TrEMBL - 396. Мотив был ослаблен путём замены на "х" (то есть символ любой аминокислоты) тех возможных аминокислот в одной позиции из сильного паттерна, которые отличаются по свойствам. Например, возможные аминокислоты [HKQM] не обладают ни одинаковым зарядом, ни похожей структурой => они были заменены на "х".

Экспериментальный мотив:

P-x-[TAVS]-x-V-X(1,1000)-T-L-X-C-[WRQEKD]-A-X(1,1000)-F-Y-P-X(1,2)-I-x(1,3)-W

Идея этого мотива была в том, чтобы найти случаи, когда между консервативными участками этого мотива произошла вставка. При этом поиск был произведён только по SwissProt, чтобы найти только надёжные белки. Находок в SwissProt было 117. Все они являются антигенами комплекса гистосовместимости. При анализе результатов стало понятно, что вставка перед участком "F-Y-P" не происходит (видимо, он очень важен в функциональном плане или при сворачивании).

Скачать проект Jalview с множественным выравниванием и разметкой на участке, по которому строился мотив, можно скачать здесь