Поиск по паттерну в банке Swiss-Prot.

Создание паттернов для поиска и распознавания аминокислотных последовательностей.

На главную страницу второго семестра

Mножественное выравнивание ASSY_ECOLI и его ортологов. 
                                                                   
                                  *       1 0         *            
A S S Y _ E C O L I   :   V T V R F E Q G H P V A L N G   :     1 5
A S S Y _ B U R M L   :   V T V R F E A G Q P V A L N G   :     1 5
A S S Y _ B R A J A   :   V V V R F E E G Q P T A L N G   :     1 5
A S S Y _ N E I M A   :   V S V R F E E G V P V A L N G   :     1 5
A S S Y _ R A L S O   :   V S I T F D E G R P V A V N G   :     1 5
                          V   v r F e   G   P v A l N G            

Результаты поиска по паттернам в банке данных Swiss-Prot.

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности VTVRFEQGHPVALNG В 6 последовательностях Нет, была найдена только 1 последовательность (ASSY_ECOLI). Причем, она 3-я по списку.
Сильный V-[TVS]-[VI]-[RT]-F-[ED]-[QAE]-G-[HQVR]-P-[VT]-A-[LV]-N-G В 14 последовательностях Все
Слабый V-[TVS]-[VI]-[RT]-F-X(1,2)-G-X-P-[VT]-A-[LV]-N-G В 18 последовательностях Все

Создание множественного выравнивания последовательности ASSY_ECOLI и 4-5-ти его гипотетических ортологов.

Сначала, с помощью программы blastp были найдены в банке Swiss-Prot предпологаемые гомологи ASSY_ECOLI. И были выбраны 4 наиболее вероятных ортологов, по таким критериям: (во-первых, признаком ортологичности мы считали cовпадение названий белков из разных организмов), процент идентичности в диапазоне 40-80% а E-value находки не хуже (т.е., не больше) 0,001. Был получен файл (orthologues.fasta) c оследовательностями ASSY_ECOLI и всех отобранных "ортологов" в формате FASTA С помощью программы muscle было построено множественное выравнивание ASSY_ECOLI и его "ортологов". (Это было сделано командой muscle -in orthologues.fasta -out alignment.fasta). Следовательно, множественное выравнивание ASSY_ECOLI и его "ортологов" это файл alignment.fasta. Этот файл был импонтирован в GeneDoc, и был выбран консервативный фрагмент выравнивания длиной 15 а.о. для дальнейшего исследования. (см. выше)

Создание паттернов по множественному выравниванию и проведение поиска по паттернам в банке данных Swiss-Prot.

Было построено 3 паттерна. Первый паттерн в точности является фрагментом последовательности ASSY_ECOLI. Второй паттерн был построен так: я включила все позиции моего фрагмента выравнивания, а в каждой позиции были разрешены все буквы, встретившиеся в какой-либо из последовательностей. Аминокислотный остаток, который был одинаков во всех последовательностях ,писался просто однобуквенным обозначением этого а.о.(без всяких скобок). В тех столбиках, в которых а.о. не совпадали, там однобуквенные символы обозначения а.о. писались в квадратных скобках, например, столбик состоит из таких остатков : TTVSS, следовательно, мы должны написать в квадратных скобках - [TVS]. Благодаря такому обозначению, база данных будет искать белки, у которых в аминокислотной последовательности будут встречаться такие а.о., как - T или V, или S. Третий паттерн строился так: этот паттерн строился на основе второго паттерна, но в тех позициях, в которых большинство а.о. оказалось разным были поставлены X, например, столбик (HQQVR), эти однобуквенные обозначения a.o. заменились так-X.Так же, я убрала 2 позиции с конца.

Наблюдения.

Поиск по первому паттерну оказался удачным! Была найдена аминокислотная последовательность ASSY_ECOLI. Но, кроме последовательности моего белка, база данных нашла еще 5 аминокислотных последовательностей. Эти аминокислотные последовательности из одного семейства.Как уже было сказано выше,белок ASSY_ECOLI в списке находок был 3. База данных не нашла больше ни одного белка из выравнивания. Поиск по второму паттерну был тоже удачным. Было найдено 14 последовательностей моего белка, тоже из одного семейства. При этом поиске были найдены все белка из выравнивания. А вот поиск по третьему паттрену оказался интересным. Сначала я составила такой паттерн : V-[TVS]-[VI]-[RT]-F-X-{A}-G-X-P-[VT]-A-[LV]-N-G, то есть попыталась исключить маленький аминокислотный остаток. База данных мне выдала результат, в котором было найдено 17 последовательностей моего белка, но выделенных из разных организмов. И так же в этом списке не оказалось белка ASSY_BURML. Потом, я составила другой паттерн: V-[TVS]-[VI]-[RT]-F-X(1,2)-G-X-P-[VT]-A-[LV]-N-G. Поиск оказался удачным. Было найдено 18 последовательностей, в этом числе были все исследуемые мной белки. Потом, я составила такой паттерн:[VI]-[RT]-F-X(1,2)-G-X-P-[VT]-A-[LV]. Поиск оказался достаточно удачным. Было найдено 23 последовательности (последовательности моего белка, но выделенные из разных организмов), в их числе были исследуемые белки. Из этого можно сделать вывод, что для поиска белка по паттерну не столь важны начало и конец паттерна. База данных все равно найдет все интересующие белки, но просто общее количество находок будет большим. А вот исключение маленького аминокислотного остатка сильно повлияло на поиск! (см. выше)


©Трембицкая Влада