Поиск по паттерну в банке Swiss-Prot

На главную страницу второго семестра

Создание паттернов для поиска и распознавания аминокислотных последовательностей


Фрагмент выравнивания последовательностей из GeneDoc, найденных с помощью программы BLASTP по аминокислотной последовательности моего белка COAE_ECOLI, который использовался при написании паттернов:
                                                                           
                                            *                              
C O A E _ P A S M U   :   I M A S Q V D R Q T R L Q F A D D V I   :     1 9
C O A E _ V I B C H   :   I L A A Q A S R A Q R L A I A D D V L   :     1 9
C O A E _ E C O L I   :   I L A A Q A T R E A R L A V A D D V I   :     1 9
C O A E _ S A L T I   :   I L A A Q A T R E A R L A V A D D V I   :     1 9
C O A E _ Y E R P E   :   I L A S Q V S R Q Q R L A C A D D I I   :     1 9
C O A E _ P H O L L   :   I L A A Q A S R S E R L A Y A D D I I   :     1 9
                          I 6 A   Q     R     R L     A D D 6 6            

Этот фрагмент был вырезан из множественного выравнивания, созданного с помощью программы muscle. Последовательности получены в БД Swiss-Prot через программу blastp и являются гипотетическими ортологами белка COAE_ECOLI (у находок процент идентичности от 53 до 88%).

Таблица, отображающая результат поиска мотивов в банке данных Swiss-Prot по паттернам, составленным на основе вышеприведенного выравнивания:

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности ILAAQATREARLAVADDVI 6 Из исходных 6 последовательностей по паттерну были найдены только 2: COAE_ECOLI и COAE_SALTI (что и предполагалось, так как в выбранном аминокислотном отрезке только их последовательности полностью совпадают, а также несколько отличаются от других).
Сильный I–[LM]–A–[AS]–Q–[AV]–[TSD]–R–L–[AQ]–[YCVIF]–A–D–D–[VI]–[LI] 10 Среди находок присутствовали все белки из первоначально мною взятых.
Слабый A–{GV}–Q–{GS}–{AGSV}–RL–[AQ]–X(1)–ADD 17 Присутствовали все белки из исходных шести.

Поиск белков по паттернам был проведен в базе данных PROSITE (кнопка "START THE SCAN" на страничке ScanProsite)
С "ослаблением" паттерна количество находок увеличивается, так как больше белков подходят к заданной форме. Например, если заменить в слабом паттерне "[AQ]" на выбор любой аминокислоты (X(1)), то программа выдает уже гораздо больше белков: 38. Также можно заметить, что количество находок по паттернам вообще является сравнительно небольшим, что указывает либо на небольшое количество белков данного семейства, содержащихся в БД, либо (и скорей всего) на консервативность выбранного фрагмента.


©Куликовский, Алексей