Учебный сайт Левина Ильи, 2-й семестр

Отличия между двумя выравниваниями;

Карта локального сходства

1. Ищем отличия между двумя разными выравниваниями одних и тех же двух последовательностей

Для эксперимента я решил выровнять 2 полипептидные последовательности 2-мя разными программами: needle и muscle.

Выбрал я ципрозин (P40782) и просапозин (Q61207) для выравнивания.

Дальше полученные выравнивания я перенёс в JalView для более удобного их рассмотрения. Здесь будет ссылка на jvp-файл.

Отличие №1: в needle-выравнивании Pro11 стоит над Pro128, в то время как в muscle-выравнивании Pro11 стоит над Pro22;

Отличие №2: в needle-выравнивании Asn32 стоит над Asn149, в то время как в muscle-выравнивании Asn32 стоит над Ala75;

Отличие №3: в needle-выравнивании Pro78 стоит над Pro188, в то время как в muscle-выравнивании Pro78 стоит над Pro128;

И так далее... Отличий оказалось достаточно много.

2. Карта локального сходства и сравнение её с локальным выравниванием

Информация о белках
Рекомендуемое имя белка ID AC
Cyprosin CYPR1_CYNCA P40782
Prosaposin SAP_MOUSE Q61207
Карта локального сходства
Рис. 1. Карта локального сходства ципрозина и просапозина

Лучшее по весу локальное выравнивание, выданное BLAST:

Score     	Expect	Method                      	Identities	Positives	Gaps
42.4 bits(98)	2e-08	Compositional matrix adjust.	29/129(22%)	59/129(45%)	22/129(17%)
Query  285  QCKSLVDQYGKSMIEMLLSEEQPEKICSQMKLCS-----FDGSHDTSMIIESVVDK----  335
            +C+ +V  +G S++++ + E  P  +C  + LC+      +     +  I S + K    
Sbjct  358  KCQEVVGTFGPSLLDIFIHEVNPSSLCGVIGLCAARPELVEALEQPAPAIVSALLKEPTP  417

Query  336  ----SKGKSSGLPMRCVP---------CARWVVWMQNQIRQNETEENIINYVDKLCERLP  382
                ++ K S LP    P         C + V+++++ + +N T+E I+  ++K C  LP
Sbjct  418  PKQPAQPKQSALPAHVPPQKNGGFCEVCKKLVLYLEHNLEKNSTKEEILAALEKGCSFLP  477

Query  383  SPMGESAVD  391
             P  +   D
Sbjct  478  DPYQKQCDD  486

Про поля FT обоих белков:

На участке, попавшем в выравнивание, первой последовательности, обнаружено целых 3 дисульфидных связи (286-378, 311-350, 317-347).

На участке, попавшем в выравнивание, второй последовательности, обнаружено:

Заметим, что дисульфидные связи являются достаточно консервативными, так как чаще всего участвуют в поддержке пространственной структуры небольших полипептидных цепей. В нашем выравнивании обнаружено целых 5 совпадений цистеинов

Сравнение лучшего выравнивания BLAST с оптимальным локальным выравниванием water:

Получилось так, что просто так скачать полученное выравнивание в fasta-формате с сайта NCBI нельзя. А это необходимо, чтобы его понял JalView и я мог нормально выполнить это выравнивание. Столкнувшись с такой проблемой, я попросил помощи у Вани Русинова, который написал скрипт, ипользующий текстовый выход pairwise-выравниваний NCBI для получения этих выравниваний в fasta-формате, причём получить можно отдельно каждый range (по умолчанию 1-й).

Этот скрипт принимает первым аргументом текстовый выход BLAST с pairwise-выравниваниями, а вторым - необходимый range. Запустить его на kodomo можно командой:

lewis@kodomo:~/term2/pr12$ ~is_rusinov/ncbi2fasta.sh BG9YZY95114-Alignment.txt
>P40782.2
QCKSLVDQYGKSMIEMLLSEEQPEKICSQMKLCS-----FDGSHDTSMIIESVVDK----
----SKGKSSGLPMRCVP---------CARWVVWMQNQIRQNETEENIINYVDKLCERLP
SPMGESAVD
>NP_035309.3,Q61207.2,EDL32178.1,BAE28613.1
KCQEVVGTFGPSLLDIFIHEVNPSSLCGVIGLCAARPELVEALEQPAPAIVSALLKEPTP
PKQPAQPKQSALPAHVPPQKNGGFCEVCKKLVLYLEHNLEKNSTKEEILAALEKGCSFLP
DPYQKQCDD

Так, выравнивания в fasta-формате мы в итоге получили. Это круто! Здесь ссылка на jvp-файл со сравнением выравниваний.

По длине water-выравнивание вышло в 2 раза длиннее BLAST-выравнивания, но суть в том, что вот это BLAST-выравнивание ПОЛНОСТЬЮ содержится в water-выравнивании (см. JalView-файл). Ну... Честно говоря, я растерялся, когда всё это увидел. Сказать могу только одно: отличий в выравнивании нет, только разница в длине.

Анализ карты:

Первое, что мне бросилось в глаза, так это то, что участок 280-320 ципрозина схож аж с четырьмя участками просапозина.

Второе, что участок 330-380 ципрозина гомологичен двум участкам просапозина.

Третье, что, судя по карте, в участках локального сходства именно в просапозине заметное количество инделей (только один виден в ципрозине).

Вывод, который я могу сделать, исходя из информации, которую мне дала эта карта и выравнивание: попавшие в выравнивание участки белков гомологичны, а про непопавшие трудно сказать. Хоть и при низком проценте покрытия выравнивание белков процент идентичности мал, малое значение e-value даёт мне возможность сказать, что найдённая находка не случайна, а значит, скорее всего, данные участки белков гомологичны.

Также стоит отметить, что water, строя оптимальное локальное выравнивание, грубо говоря, расширил то выравнивание, что мне выдал BLAST. Это нам говорит о том, что предположительно и гомологичные участки двух выбранных белков, предположительно, шире, чем нам показал BLAST.