На страницу II-ого семестра

Создание паттернов для поиска и распознавания аминокислотных последовательностей

С помощью программы BLASTP в банке Swiss-Prot искали предпологаемые гомологи белка BIOB_Ecoli. Из них выбрали 4–5 наиболее вероятных ортологов (признаком ортологичности считали cовпадение названий белков из разных организмов). Ниже приведен их список:

BIOB_ECOLI P12996; Identities = 346/346 (100%); Expect = 0.0
BIOB_METSK P94966; Identities = 178/307 (57%); Expect = 7 * 10-97
BIOB_YEAST P32451; Identities = 144/293 (49%); Expect = 2 * 10-75
BIOB_ARATH P54967; Identities = 178/324 (54%); Expect = 1 * 10-96
BIOB_SCHPO O59778; Identities = 162/316 (51%); Expect = 2 * 10-87

Получили файл с последовательностью моего белка и последовательностями всех отобранных ортологов в формате FASTA. Построили множественное выравнивание с помощью программы muscle, а затем импортировали это выравнивание в GeneDoc. Из всего выравнивания вырезали консервативный фрагмент длинной 20 а.о.:

                                                                             
                                            *                 2 0            
B I O B _ E C O L I   :   Y N H N L D T S P E F Y G N I I T T R T   :     2 0
B I O B _ M E T S K   :   Y N H N L D T A P E Y Y G E V I T T R T   :     2 0
B I O B _ Y E A S T   :   Y N H N I D T S R E H Y S K V I T T R T   :     2 0
B I O B _ A R A T H   :   Y N H N L D T S R E Y Y P N V I T T R S   :     2 0
B I O B _ S C H P O   :   Y N H N L D T S R E Y Y S K I I S T R T   :     2 0
                          Y N H N   D T     E   Y       I   T R              


Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из выравнивания найдены?
Фрагмент последовательности YNHNLDTSPEFYGNIITTRT 3 Найдена только одна последовательность, из участка которой был составлен паттерн, т.е. BIOB_Ecoli. Кроме нее найдены были ее ортологи из Erwinia herbicola и из Salmonella typhimurium.
Сильный YNHN-[LI]-DT-[SA]-[PR]-E-[FHY]-Y-[GSP]-[NEK]-[IV]-I-[TS]-TR-[TS] 7 Все последовательности из выравнивания надены
Слабый YNHN-x-DT-x(2)-E-x-Y-x(3)-I-x-TR-x 8 Все последовательности из выравнивания надены

Участок множественного выравнивания, выбранный для построения паттерна оказался очень консервативным. Даже удаление из слабого паттерна первых четырех аминокислотных остатков существенно не повлияло на количество находок (их стало 9). Сильный паттерн составлялся таким образом, чтобы количество находок было минимально и при этом были бы найдены все последовательности нашей выборки. Что вообщем-то удалось. Цель при составлении слабого паттерна была увеличить количество находок, при этом по возможности находить гомологов нашей последовательности. Добиться этой цели до конца не удалось. Тем не менее среди находок не было последовательностей с названием кардинально отличающимся от названия нашего белка (в первой части ID всех находок слово BIOB, что может говорить о том, что все находки - ортологи нашему белку BIOB_Ecoli)


© Sedliarov Vitaliy