Создание паттернов для поиска и распознавания аминокислотных последовательностей


Фрагмент выравнивания 4-х ортологов моего белка, сделанного с помощью программы muscle(фрагмент был выбран после импортирования выравнивания в GeneDoc):
                                                                           
                                            *                              
D K G B _ S A L T I   :   L K K L R T D Y V D L T L I H W P S P   :     1 9
D K G A _ C O R S C   :   L A K L A L D Q V D L Y L V H W P T P   :     1 9
D K G A _ E C O L I   :   L K K L Q L D Y I D L Y L M H W P V P   :     1 9
D K G A _ Y E R P E   :   L Q K L Q L D Y V D L Y L I H W P D P   :     1 9
                          L   K L     D     D L   L   H W P   P            
Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности LKKLQLDYIDLYLMHWPVP 2 нет, только та, чей фрагмент был взят в качестве паттерна
Сильный L-[KAQ]-KL-[RAQ]-[TL]-D-[QY]-[VI]-DL-[TY]-L-[VMI]-HWP-[STVD]-P 8 Да
Слабый L-x-KL-x(2)-D-x(2)-DL-x-L 17 Да. Причем паттерн настолько слабый, что нашлись белки мыши, человека и яблока(!).


Паттерны использовались для поиска белков в БД PROSITE. Сила паттерна соответствует возможным изменениям в последовательности, которые считаются данным паттерном незначительными.
Наиболее сильный паттерн - просто фрагмент одной из последовательностей (DKGA_ECOLI). Так как больше он вряд ли встречается у многих белков (это слишком строгое требование к последовательности), то кроме данной последовательности нашлась только еще одна, по всей видимости, очень близкая ( DKGA_ECO57 - просто другой штамм).
Второй паттерн создавался специально так, чтобы по возможности найти только те 4 последовательности, которые были выбраны изначально. Поэтому на те места, где их последовательности различались, я ставила на выбор те аминокислотные остатки, которые там есть. Но это позволило найти еще 4 последовательности помимо выбранных. Это ознпчает, что данные 8 последовательностей весьма близки, и такого небольшого фрагмента явно недостаточно для создания паттерна для нахождения именно этих 4-х ( его, может, и нельзя создать - если среди "лишних" 4-х есть более близкие к DKGA_ECOLI, чем выбрала я - судя по результату первого поиска так оно и есть).
Третий паттерн специально был сделан слабым: все спорные места заменены на х, в конце убраны 5 остатков. Таким образом нашлось более, чем в 2 раза больше белков, чем по сильному паттерну. Эти белки имеют лишь некоторые общие черты: они принадлежат к семье альдокеторедуктаз, НАДФ-зависимы. Но их субстраты (и катализируемые реакции) очень различны.


На страницу 2-го семестра

© Моросанова Мария