На главную страницу
На главную страницу второго семестра

Создание паттернов для поиска и распознавания аминокислотных последовательностей

Создано выравнивание пяти последовательностей и моего белка (AROE_ECOLI). Все шесть белков – ортологи (в первом приближении будем считать ортологами белки одинаковым первым "словом" в ID, в данном случае AROE_*****). Они найдены с помощью программы BLASTP по последовательности AROE_ECOLI.
Рассматривался фрагмент выравнивания:
                                                                     
                                            *                        
A R O E _ E C O L I   :   L E D G R L L G D N T D G V G L   :     1 6
A R O E _ P A S M U   :   L D D G R L Y G D N T D G A G L   :     1 6
A R O E _ N E I M U   :   L E N G K I R G D N T D G I G L   :     1 6
A R O E _ V I B C H   :   L D D G E I L G D N T D G E G L   :     1 6
A R O E _ P S E A E   :   L A D G R L R G D N T D G A G L   :     1 6
A R O E _ Y E R P E   :   L E D G R L L G D N T D G I G L   :     1 6
                          L     G       G D N T D G   G L            
На основе этого участка создано несколько паттернов. Они приведены в таблице.

Паттерны

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности LEDGRLLGDNTDGVGL 2 один из шести, в том числе мой белок(AROE_ECOLI)
Сильный L-[EDA]-[DN]-G-[RKE]-[LI]-[LRY]-GDNTDG-[VAIE]-GL 12 Найдены все 6 выравниваемых последовательностей,
те же 7 родов
Совсем слабый L-X(0,2)-G-X(0,3)-GDN 765 Найдены все 6 выравниваемых последовательностей;
из найденных белков 21 – AROE
наиболее реальный L-X-[DN]-G-X-[LI]-X-GDNTDG-X-GL 22 все 6 последовательностей найдены;
заметим, что среди найденных 2 последовательности из организмов других родов (чем выравниваемые), всего родов 7
Слабый G-{HA}-[LI]-[LRY]-GDNTDG
в фигурных скобках небольшие неполярные остатки
18 Найдены все 6 выравниваемых последовательностей;
паттерн оказался даже более сильным, чем первый, так как есть ограничения на остаток перед [LI].
Таким образом, полярность этого остатка и его размеры мало влияют на функции белка

Паттерны создавались для поиска похожих последовательностей. Более сильный паттерн дает меньше возможных гомологов, но при поиске на любой паттерн выдает шесть начальных последовательностей. Более слабый паттерн менее точен, и находка содержит много лишних белков (если выравнивался участок, отвечающий за функцию белка, то только ортологи нельзя считать лишними. Но внутри AROE могут быть подклассы гомологии, а могут быть белки с анализируемым участком, но не AROE).
В таблице приведен также наиболее правильный, на мой взгляд, паттерн. Он лучше всего характеризует данный фрагмент выравнивания. Последний паттерн ("слабый") содержит ограничение на остаток после "G" и, хотя паттерн короче, дал меньше последовательностей, чем "наиболее реальный". Поэтому ограничение – искусственное, и на позиции после "G" может стоять и "H", и "A".
Паттерн "Совсем слабый" дает очень много находок, среди них много лишних. Так как AROE из них 21, а сильнай паттерн нашел всего 12 белков, то сильный паттерн отражает определенную подгруппу AROE, а не все ортологи. Таким образом, критерий "не AROE" нельзя считать однозначным признаком того, что данная находка – лишняя.


©Семенюк Павел