Практикум 12. Алгоритм BLAST, матрицы BLOSUM, карты локального сходства

Отличия между двумя разными выравниваниями пары белков с кодами доступа P40782 и Q61207

Русские названия этих белков - ципрозин и просапозин (из мыши).

Первое выравнивание было проведено в веб-интерфейсе программы "BLAST". Параметры запуска: ожидаемый порог E-value не более 0.001, оперировать блоками по 3 аминокислоты (word size=3), остальные по-умолчанию. Текстовый файл выравнивания можно просмотреть по ссылке.

Второе выравнивание было проведено с помощью программы "water", параметры запуска были не были изменены (опция -auto). Файл второго выравнивания можно просмотреть по ссылке.

Ниже предвставлен отрывок из выраванивания, выполненного BLAST. На нем аминокислотные остатки ципрозина с номерами 347-349 (Cys347, Val348, Pro349) включительно сопостовляются с а.о. просапозина с номерами 434-436 (Val434, Val435, Pro436) так же включительно.

PMRCVP---------CA
 P    P         C 
PAHVPPQKNGGFCEVCK

А здесь находится тот же отрывок из выравнивания water. На нем те же остатки ципрозина (Cys347, Val348, Pro349) сопоставляются с 442-444 (Cys442, Glu443, Val444) включительно остатками просапозина.

PMR---------CVPCA
|..         |..|.
PAHVPPQKNGGFCEVCK 

Различия можно объяснить, обратившись к принципу работы BLAST. Так, размер слова равный 3 означает индексирование последовательности по блокам размера 3 символа каждый, из которых более предпочтительным BLAST посчитал с совпадением пролинов. В то же время water предпочел совпадение цистеинов.

Точно неизвестно, какое выравание правильнее, потому как совпадение пролинов происходит реже, но совпадение цистеинов может относиться к дисульфидным мостикам. Один из которых указан 317-347 остатками в описании ципрозина.

Описание карты локального выравнивания белков с кодами доступа P06210 и Q9DLK1. Сравнение с оптимальным локальным выравниванием

Для построения карты использовались два полипротеина, один из полиовируса типа 2 (Poliovirus type 2 (strain Lansing)), второй из вируса ящура (Foot-and-mouth disease virus (isolate Swine/Taiwan/OTai/1997 serotype O)(FMDV)). Основные характеристики белов представлены в таблице.

Таблица 1. Некоторые характеристки выбранных белков
Наименование P06210 Q9DLK1
ID POLG_POL2L Q9DLK1_FMDVP
AC P06210 Q9DLK1
Рекомендуемое имя Genome polyprotein Genome polyprotein
Feature table Ссылка на содержание FT Unreviewed поэтому пусто

Карта локального выравнивания изображена на рисунке 1.

Карта локального выравнивания
Рисунок 1. Карта локального выравнивания (по вертикали P06210, по горизонтали - Q9DLK1)

На карте заметны 6 гомологичных участков, из которых самый большой занимает примерно 1590-2206 а.о. по горизонтали и 1700-2317 по вертикали. Поэтому по мнению BLAST он является оптимальным локальным выравнием. На основании такого количества гомологичных участков можно сказать, что последовательности в целом гомологичны, но имеется несколько негомологичных участков, из которых самый крупный занимает примерно 680-1150 а.о. по горизонтали и 850-1100 по вертикали. Также заметно около дюжины гэпов, многие из них находятся в крупнейшем гомологичном участке и являются инделями - либо вставкой со стороны белка ящура, либо делецией со стороны полиовируса.

Дополнительно было проведено сравнение оптимальных локальных выравниваний по версиям BLAST и water с дефолтными параметрами.

Основным отличием является диапазон сравнения, у BLAST как сказано выше - 1592-2206 а.о. полиовируса и 1674-2317 а.о. вируса ящура. В то же время water провел почти глобальное выравнивание, были рассмотрены 2-2206 а.о. полиовируса и 202-2317 а.о. вируса ящура. Поэтому на основании работы water можно сделать вывод, что последовательности на протяжении всей своей длины гомологичны, что подтверждает соответсвующий вывод из описания карты. Хотя процент идентичности обоих выравниваний сравнительно низок - 28% в случает BLAST и 24% в случае water, E-value выравнивания в BLAST составляет 6*10-70, что значительно меньше 0.001 и еще раз подтверждает гипотезу о гомологичности последовательностей.