УЧЕБНЫЙ САЙТ АМОСОВОЙ АЛЁНЫ

PROSITE.Мотивы.

Построение сильного и слабого паттернов для выравнивания


Поиск мотива осуществлялся для выравнивания aln5_2.fa. Из этого выравнивания были взяты первые десять последовательностей, ибо сервис не способен обработать большее их число.


Рис.1.Выравнивание с выделенным участком, по которому будут составляться паттерны.


Составим сильный паттерн:[ML]-[SA]-[GKV]-[GS]-[QE]-[KR]-Q-R-[IVL]-A-I-A-R-A-[LIV]. Используем его для поиска последовательностей(воспользуемся второй опцией PROSITE). В базе RefSeq было найдено 464 участка, удовлетворяющих паттерну в 434 последовательностях. В Tremble был исчерпан лимит в 10000 последовательностей в которых отыскалось 10324 нужных участка.

Составим слабый паттерн, сохраняя при этом какие-то особенно сходные группы аминокислот, типа[IVL], а [ML] оставим, ибо иначе можно было бы просто начать с [QE]:[ML]-x(3)-[QE]-x-Q-R-[IVL]-A-I-A-R-A-[LIV]. В базе RefSeq было найдено 648 участков, удовлетворяющих паттерну в 614 последовательностях. В Tremble лимит в 10000, как и следовало ожидать, был превышен.

Prosite также предложил паттерн PS00211, который выглядит так:[LIVMFYC]-[SA]-[SAPGLVFYKQH]-G-[DENQMW]-[KRQASPCLIMFW]-[KRNQSTAVM]- [KRACLVM]-[LIVMFYPAN]-{PHY}-[LIVMFW]-[SAGCLIVP]-{FYWHP}-{KRHP}-[LIVMFYWSTA]. Этот паттерн много слабее чем даже слабый паттерн составленный мной. В базе RefSeq по нему отыскалось 3947 последовательностей, в которых 4271 подобный участок, в Tremble устраивать поиск смысла нет, лимит будет превышен, можно конечно было поднять его до 1000000 последовательностей, но если учитывать время, которое требовалось на поиск в Tremble с лимитом 10000, то поиск с лимитом 1000000 занял быть может не один час).

© Амосова Алена. 2014 год