Создание паттернов для поиска и распознавания аминокислотных последовательностей

Задание 1: cоздать множественное выравнивание последовательности моего белка и 4-5-ти его гипотетических ортологов, найденных в банке Swiss-Prot с помощью программы BlastP. За признак ортологичности мы примем cовпадение названий белков из разных организмов, с процентом идентичности в диапазоне 40-80%. Последовательности представлены в файле orthologue.fasta, а их множественное выравнивание в orthologues.msf. Множественное выравнивание моего белка и его "ортологов" построено с помощью программы muscle. Затем был выбран консервативный фрагмент выравнивания длиной 13 а.о. для дальнейшего исследования:
                                                           
                                          *                
S Y H _ C O R G L   :   R A E I N P L R V L D D K   :   1 3
S Y H _ S Y N Y 3   :   R L E R N P L R I L D S K   :   1 3
S Y H _ N E I M B   :   R L K T N P L R V L D T K   :   1 3
S Y H _ M E T C A   :   R L E T N P L R I L D S K   :   1 3
S Y H _ P A S M U   :   R L E K N P L R I L D T K   :   1 3
S Y H _ E C O L I   :   R M Y T N P L R V L D S K   :   1 3
                        R       N P L R 6 L D   K          

Задание 2: c помощью полученного фрагмента создать 3 паттерна и првести поиск последовательностей по этим паттернам.

  1. Первый паттерн в точности является фрагментом последовательности моего белка.
  2. Второй ("сильный") паттерн надо постараться построить так, чтобы он распознавал все белки моей выборки.
  3. Третий ("слабый") паттерн надо создать на основе второго, сделав требования к последовательности более мягкими.
Результаты сравнения приведены в таблице

Сравнение результатов поиска последовательностей по разным паттернам.

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности RMYTNPLRV в 10 последовательностях
Сильный R-[ALM]-[EKY]-[IKRT]-NPLR-{L}-LD-[DST]-K в 37 последовательности найдены все последовательности из выравнивания.
Слабый R-{IS}-[EKY]-X-NPLR-{L}-LD-X-K
в 68 последовательностях соответсвенно белки выравнивания найдены.

Пожалуй, моей основной ошибкой являлась не совсем корректная выборка белков. Я выбрал некоторые последовательности с небольшими процентами идентичности (хотя должен был выбрать лучше). В итоге, количество найденных белков значительно больше, чем могло бы быть. Важно отметить, что я не смог бы создать такой строгий паттерн, чтобы он находил белки только моей выборки, так как присутствует целый ряд белков с процентами идентичности в районе больше 90%. Однако моя "неудача" позволила мне подробнее разобраться в консервативности тех или иных аминокислотных остатков моего участка. Например, 2-ая позиция участка является консервативной (здесь только гидрофобные а.о.). В свою очередь 3-я позиция не является консервативной (заменив [EKY] на X, количество находок возрастает до 123).

На главную


©Ларионов Дмитрий 2005