Главная страница > Второй семестр > Создание паттернов для поиска и распознавания аминокислотных последовательностей 

Создание паттернов для поиска и распознавания аминокислотных последовательностей



                                                                                         
                                            5       1 0       1 5       2 0            
    G L M S _ B A R Q U     264   :   S T L V A R Y W F E N F A A L S V D N D   :   2 83
    G L M S _ B R U S U     264   :   A A T V A K Y W F E Q I A R L P V D S D   :   2 83
    G L M S _ E C O L I     267   :   S G M V S R Y W F E S L A G I P C D V E   :   2 86
    G L M S _ R H I L O     264   :   A G L I G K Y W F E R Y A R L P V D I D   :   2 83
    G L M S _ T R E P A     280   :   A G L V A R Y W F E A F A G V G C Q V E   :   2 99
                                                                                       

    Рис. 1. Участок множественного выравнивания последовательностей следующих белков: GLMS_BARQU, GLMS_BRUSU, GLMS_ECOLI, GLMS_RHILO и GLMS_TREPA. Красным выделены столбцы, содержащие пять одинаковых аминокислотных остатков, зеленым — четыре остатка, желтым — три остатка. Выравнивание проведено с помощью программы muscle.



Табл. 1. Результаты поиска последовательностей банка SwissProt по паттернам
длиной 20 аминокислотных остатков (пояснения см. в тексте).

Характеристика
паттерна
Паттерн
Количество последовательностей, в которых найден мотив, удовлетворяющий паттерну Все ли последовательности выравнивания найдены?
Фрагмент
последовательности
SGMVSRYWFESLAGIPCDVE
7
нет
Сильный [AS]-[GAT]-[TLM]-[IV]-[GAS]-[KR]-YWFE-[ASNQR]-[LIFY]-A-[GAR]-[LIV]-[GSP]-[VC]-[DQ]-[SIVN]-[DE]
19
да
Средний [ASGT](2)-{DEKRHFYW}-[MILV]-[AGSN]-[KRNEQ]-YWFE-x-[MILVFY]-A-x-[LIVM]-{DEKRHFYW}-[LIVMC]-[SNDEQK]-{KRHFYW}-[SNDEQK]
28
да
Слабый [ASGTNEQKC]-[TAGSNC]-x-[MILVATF]-[AGSTN]-[KRNEQSH]-YW-[FY]-[DEQ]-x-[MILVFYW]-[AS]-x-[LIVMATF]-x(2)-[SNDEQKTRH]-x-[STNDEQKH]
37
да



Табл. 2. Результаты поиска последовательностей банка SwissProt по паттернам
длиной 14 аминокислотных остатков (пояснения см. в тексте).

Характеристика
паттерна
Паттерн
Количество последовательностей, в которых найден мотив, удовлетворяющий паттерну Все ли последовательности выравнивания найдены?
Фрагмент
последовательности
SGMVSRYWFESLAG
9
нет
Сильный [AS]-[GAT]-[TLM]-[IV]-[GAS]-[KR]-YWFE-[ASNQR]-[LIFY]-A-[GAR]
24
да
Средний [ASGT](2)-{DEKRHFYW}-[MILV]-[AGSN]-[KRNEQ]-YWFE-x-[MILVFY]-A
29
да
Слабый [ASGTNEQKC]-[TAGSNC]-x-[MILVATF]-[AGSTN]-[KRNEQSH]-YW-[FY]-[DEQ]-x-[MILVFYW]-[AS]
38
да



Табл. 3. Результаты поиска последовательностей банка SwissProt по паттернам
длиной 8 аминокислотных остатков (пояснения см. в тексте).

Характеристика
паттерна
Паттерн
Количество последовательностей, в которых найден мотив, удовлетворяющий паттерну Все ли последовательности выравнивания найдены?
Фрагмент
последовательности
SGMVSRYW
10
нет
Сильный [AS]-[GAT]-[TLM]-[IV]-[GAS]-[KR]-YW
40
да
Средний [ASGT](2)-{DEKRHFYW}-[MILV]-[AGSN]-[KRNEQ]-YW
79
да
Слабый [ASGTNEQKC]-[TAGSNC]-x-[MILVATF]-[AGSTN]-[KRNEQSH]-YW
301
да




    Для проведения множественого выравнивания выбраны следующие ортологи белка GLMS_ECOLI:

    Поиск ортологов осуществлялся с помощью программы BLAST (использовалась матрица замен BLOSUM62, штраф за открытие гэпа был равен 11, штраф за удлиннение гэпа — 1). Критерием выбора ортологов среди найденных гомологов являлось присутствие в кратком описании белка названия Glucosamine--fructose-6-phosphate aminotransferase [isomerizing]. Полные аминокислотные последовательности ортологов приведены здесь.
    Множественное выравнивание было проведено с помощью программы muscle (см. результаты выравнивания). Для построения паттернов выбран консервативный участок длиной 20 аминокислотных остатков (рис. 1), состоящий из следующих фрагментов последовательностей:     Для поиска последовательностей по сходству с данным участком были построены следующие паттерны:
  1. Копия участка последовательности GLMS_ECOLI.
  2. Паттерн, каждая из позиций которого представляет собой перечисление всех аминокислотных остатков последовательностей выборки, находящихся на этой позиции ("сильный" паттерн для распознавания белков выборки).
  3. Два паттерна с более мягкими требованиями к последовательностям ("средний" и "слабый" для распознавания гомологов белков выборки). "Слабый" паттерн отличается от "среднего" тем, что некоторые его позиции дополнительно ослаблены.
    При построении "среднего" и "слабого" паттернов для учета степени сходства аминокислотных остатков по физико-химическим свойствам использовались данные матрицы замен BLOSUM62. Если на некоторой позиции множественного выравнивнивания чередуются сходные по физико-химическим свойствам аминокислотные остатки, то в "среднем" паттерне на этой позиции разрешены все остатки, среднее арифметическое весов замен которых на каждый из остатков данной позиции выравнивания неотрицательно, в "слабом" паттерне — больше –1. Если на некоторой позиции выравнивания все аминокислотные остатки одинаковы, то в "среднем" паттерне на этой позиции разрешены только аминокислотные остатки, совпадающие с остатками позиции выравнивания, а в "слабом" паттерне такие аминокислотные остатки, веса замен которых на остаток позиции выравнивания отличаются от веса замены остатка выравнивания с самим собой не более чем на 3. Если же аминокислотные остатки позиции выравнивания значительно отличаются друг от друга по физико-химическим свойствам, то построение позиции "среднего" паттерна производится другим способом (см. ниже), а в "слабом" паттерне на этой позиции разрешены любые аминокислотные остатки. Данный алгоритм обеспечивает более мягкие требования "среднего" паттерна к распознеаваемым последовательностям по сравнению с "сильным" и "слабого" по сравнению со "средним".
    Построение 3-й, 11-й, 14-й, 16-й, 17-й и 19-й позиций "среднего" паттерна (без использования данных матрицы замен BLOSUM62) рассмотрено в табл. 4.



Табл. 4. Построение некоторых позиций "среднего" паттерна. После выявления общих свойств аминокислотных остатков
данной позиции множественного выравнивания на соответствующей позиции паттерна либо разрешались
все аминокислотные остатки, обладающие этими свойствами, либо запрещались аминокислотные остатки,
ими не обладающие. В случае отсутствия общих свойств разрешались любые аминокислотные остатки.

№ позиции
Аминокислотные остатки позиции выравнивания
Общие свойства аминокислотных остатков
Позиция паттерна
3
треонин, лейцин, метионин
отсутствие заряженных групп, отсутствие ароматических структур
{DEKRHFYW}
11
аспарагин, глутамин, серин, аланин, аргинин
свойства остатков существенно различны
x
14
глицин, аланин, аргинин
свойства остатков существенно различны
x
16
глицин, серин, пролин
отсутствие заряженных групп, отсутствие ароматических структур
{DEKRHFYW}
17
валин, цистеин
гидрофобность, отсутствие ароматических структур
[LIVMAC]
19
аспарагин, серин, изолейцин, валин
отсутствие заряженных групп, отсутствие ароматических структур
Примечание: в связи с тем, что отрицательно заряженные аминокислоты — аспартат и глутамат — по своим свойствам похожи на аспарагин, "среднем" паттерне они разрешены
{KRHFYW}



    Для того, чтобы установить оптимальную длину паттернов, кроме паттерна длиной 20 аминокислотных остатков были рассмотрены еще два, составленные из его первых 8 и 14 аминокислотных остатков. Результаты поиска последовательностей, удовлетворяющих паттернам, по банку SwissProt приведены в табл. 1 — 3.
    Поиск по паттернам, являющимся копиями участков последовательности GLMS_ECOLI, позволил найти как саму последовательность GLMS_ECOLI, так и последовательности ортологов из родственных организмов родов Escherichia, Erwinia, Salmonella, Shigella и Yersinia. При этом с уменьшением длины паттерна количество найденных последовательностей увеличивается. Нахождение последовательностей, отличных от GLMS_ECOLI, можно объяснить достаточно высокой консервативностью рассматриваемого участка. В связи с низкой частотой мутаций, за время, прошедшее от расхождения перечисленных выше организмов, данный участок последовательностей практически не претерпел ни одного изменения. При этом с уменьшением длины участка уменьшается и вероятность возникновения в нем каких-либо случайных изменений. Следовательно, участок с меньшей длиной присутствует в неизменном виде в последовательностях большего количества организмов, и паттерн меньшей длины оказывается менее специфичным.
    Сходные результаты получены при поиске по "сильному" паттерну. Кроме последовательностей выравнивания сильный паттерн позволяет обнаружить также ортологичные им последовательности (GLMS и NODM) из родственных организмов. Последовательности NODM (nodulation protein M), как и GLMS, представляют собой глюкозамин — фруктоза-6-фосфатаминотрансферазы [изомеризующие], но участвуют в образовании клубеньков на корнях растений бактериями рода Rhizobium (см. запись P25195 банка SwissProt). С уменьшением длины паттерна увеличивается количество находок. Этот результат можно объяснить теми же причинами, что и результат поиска по паттернам, являющимися копиями участков последовательности GLMS_ECOLI.
    Таким образом, если целью поиска является нахождение каких-либо конкретных белков, то для создания паттернов необходимо использовать достаточно протяженные, но наименее консервативные участки последовательностей.
    Целью поиска по "среднему" и "слабому" паттернам является нахождение максимального числа гомологичных последовательностей. Следует отметить, что поиск последовательностей, гомологичных GLMS_ECOLI, проведенный с помощью программы BLAST, позволил выявить только ортологичные последовательности (критерием ортологичности является присутствие в кратком описании последовательности назвния Glucosamine--fructose-6-phosphate aminotransferase [isomerizing], результаты поиска см. здесь). Таким образом, все выявленные по данному критерию белки выолняют ту же функцию, что и GLMS_ECOLI, то есть являются его ортологами. В связи с тем, что программа BLAST является инструментом для поиска как ортологов, так и паралогов (см. работа с программой BLASTP, раздел "Является ли BLAST инструментом для поиска ортологов?"), можно говорить о том, что среди наиболее близких к GLMS_ECOLI гомологов паралоги отсутствуют. Это позволяет использовать в дальнейшем понятия "гомолог" и "ортолог" в качестве синонимов.
    Использование "средних" и "слабых" паттернов длиной в 14 и 20 аминокислотных остатков позволило выявить от 29 до 38 последовательностей. Все они являются ортологами GLMS_ECOLI из различных бактериальных организмов классов Alphaproteobacteria, Gammaproteobacteria и Spirochaetes (один белок). Таким образом, рассматриваемые паттерны являются специфичными к глюкозамин — фруктоза-6-фосфатаминотрансферазам [изомеризующим] указанных таксонов и обеспечивают достижение цели поиска. Следует отметить, что в данном случае изменение длины паттерна незначительно влияет на количество найденных последовательностей. Это можно объяснить тем, что практически все наиболее консервативные аминокислотные остатки входят в состав первых 14. Аминокислотные остатки с 15-го по 20-й являются избыточными для осуществления поиска родственных последовательностей и даже препятствуют выявлению единичных ортологов.
    Рассмотрим результаты поиска по "среднему" и "слабому" паттернам длиной 8 аминокислотных остатков. Количество выявленных последовательностей равняется соответственно 79 и 301, что значительно выше, чем для более протяженных паттернов. Кроме GLMS и NODM было найдено большое количество негомологичных им последовательностей. Это говорит о том, что при данном уровне консервативности участка последовательности паттерны длиной 8 аминокислотных остатков являются недостаточно специфичными. Следовательно, для нахождения максимального числа гомологов из всех рассмотренных паттернов оптималным является "слабый" паттерн длиной 14 аминокислотных остатков.
    Таким образом, если целью поиска является нахождение максимального количества белков, гомологичных данным, то для создания паттернов необходимо использовать менее протяженные и более консервативные участки последовательностей, чем для поиска конкретных белков. При этом паттерн не должен оказаться слишком коротким.
    Для проверки правильности составления паттернов, с помощью SRS был осуществлен поиск по банку SwissProt всех ортологов GLMS_ECOLI из организмов, принадлежащих классам Alphaproteobacteria и Gammaproteobacteria (критерием являлось присутствие в поле DE номера белка по классификации ферментов — 2.6.1.16). Было найдено 57 гомологов, что превышает количество белков, выявленных с помощью "слабого" паттерна длиной 14 аминокислотных остатков, на 19. Далее были рассмотрены два белка, которые не удовлетворяли паттерну (GLMS_LEGPA и GLMS_XYLFA). Участки этих белков, гомологичные последовательности GLMS_ECOLI 267—286, ограничены аминокислотными остатками со следующими номерами:

    В обоих последовательностях на 9-й позиции участков вместо фенилаланина, который присутствует во всех последовательностях выравнивания, находятся лейцин и изолейцин. В "слабом" паттерне разрешены только фенилаланин и тирозин, поэтому последовательности GLMS_LEGPA и GLMS_XYLFA при поиске выявлены не были.
    Для оптимизации "слабого" паттерна длиной 14 аминокислотных остатков его девятая позиция [FY] была заменена на [LIVMFYW] (разрешены гидрофобные аминокислотные остатки с достаточно большими боковыми цепями). Оптимизированный паттерн поволил обнаружить 60 последовательностей, все из которых являются гомологами последовательностей выравнивания (GLMS и NODM). Таким образом, после внесения изменения была найдена большая часть ортологов GLMS_ECOLI из бактерий классов Alphaproteobacteria и Gammaproteobacteria, а также из некоторых других бактериальных организмов (например, из Aquifex aeolicus класса Aquificae).
    Следовательно, паттерн [ASGTNEQKC]-[TAGSNC]-x-[MILVATF]-[AGSTN]-[KRNEQSH]-YW-[LIVMFYW]-[DEQ]-x-[MILVFYW]-[AS] обеспечивает нахождение достаточного числа последовательностей, гомологичных последовательностям выравнивания.


© Куравский Михаил Львович, 2006