Для эксперимента я решил выровнять 2 полипептидные последовательности 2-мя разными программами: needle и muscle.
Выбрал я ципрозин (P40782) и просапозин (Q61207) для выравнивания.
Дальше полученные выравнивания я перенёс в JalView для более удобного их рассмотрения. Здесь будет ссылка на jvp-файл.
Отличие №1: в needle-выравнивании Pro11 стоит над Pro128, в то время как в muscle-выравнивании Pro11 стоит над Pro22;
Отличие №2: в needle-выравнивании Asn32 стоит над Asn149, в то время как в muscle-выравнивании Asn32 стоит над Ala75;
Отличие №3: в needle-выравнивании Pro78 стоит над Pro188, в то время как в muscle-выравнивании Pro78 стоит над Pro128;
И так далее... Отличий оказалось достаточно много.
Информация о белках | ||
---|---|---|
Рекомендуемое имя белка | ID | AC |
Cyprosin | CYPR1_CYNCA | P40782 |
Prosaposin | SAP_MOUSE | Q61207 |
Лучшее по весу локальное выравнивание, выданное BLAST:
Score Expect Method Identities Positives Gaps 42.4 bits(98) 2e-08 Compositional matrix adjust. 29/129(22%) 59/129(45%) 22/129(17%) Query 285 QCKSLVDQYGKSMIEMLLSEEQPEKICSQMKLCS-----FDGSHDTSMIIESVVDK---- 335 +C+ +V +G S++++ + E P +C + LC+ + + I S + K Sbjct 358 KCQEVVGTFGPSLLDIFIHEVNPSSLCGVIGLCAARPELVEALEQPAPAIVSALLKEPTP 417 Query 336 ----SKGKSSGLPMRCVP---------CARWVVWMQNQIRQNETEENIINYVDKLCERLP 382 ++ K S LP P C + V+++++ + +N T+E I+ ++K C LP Sbjct 418 PKQPAQPKQSALPAHVPPQKNGGFCEVCKKLVLYLEHNLEKNSTKEEILAALEKGCSFLP 477 Query 383 SPMGESAVD 391 P + D Sbjct 478 DPYQKQCDD 486
Про поля FT обоих белков:
На участке, попавшем в выравнивание, первой последовательности, обнаружено целых 3 дисульфидных связи (286-378, 311-350, 317-347).
На участке, попавшем в выравнивание, второй последовательности, обнаружено:
Заметим, что дисульфидные связи являются достаточно консервативными, так как чаще всего участвуют в поддержке пространственной структуры небольших полипептидных цепей. В нашем выравнивании обнаружено целых 5 совпадений цистеинов
Сравнение лучшего выравнивания BLAST с оптимальным локальным выравниванием water:
Получилось так, что просто так скачать полученное выравнивание в fasta-формате с сайта NCBI нельзя. А это необходимо, чтобы его понял JalView и я мог нормально выполнить это выравнивание. Столкнувшись с такой проблемой, я попросил помощи у Вани Русинова, который написал скрипт, ипользующий текстовый выход pairwise-выравниваний NCBI для получения этих выравниваний в fasta-формате, причём получить можно отдельно каждый range (по умолчанию 1-й).
Этот скрипт принимает первым аргументом текстовый выход BLAST с pairwise-выравниваниями, а вторым - необходимый range. Запустить его на kodomo можно командой:
lewis@kodomo:~/term2/pr12$ ~is_rusinov/ncbi2fasta.sh BG9YZY95114-Alignment.txt >P40782.2 QCKSLVDQYGKSMIEMLLSEEQPEKICSQMKLCS-----FDGSHDTSMIIESVVDK---- ----SKGKSSGLPMRCVP---------CARWVVWMQNQIRQNETEENIINYVDKLCERLP SPMGESAVD >NP_035309.3,Q61207.2,EDL32178.1,BAE28613.1 KCQEVVGTFGPSLLDIFIHEVNPSSLCGVIGLCAARPELVEALEQPAPAIVSALLKEPTP PKQPAQPKQSALPAHVPPQKNGGFCEVCKKLVLYLEHNLEKNSTKEEILAALEKGCSFLP DPYQKQCDD
Так, выравнивания в fasta-формате мы в итоге получили. Это круто! Здесь ссылка на jvp-файл со сравнением выравниваний.
По длине water-выравнивание вышло в 2 раза длиннее BLAST-выравнивания, но суть в том, что вот это BLAST-выравнивание ПОЛНОСТЬЮ содержится в water-выравнивании (см. JalView-файл). Ну... Честно говоря, я растерялся, когда всё это увидел. Сказать могу только одно: отличий в выравнивании нет, только разница в длине.
Анализ карты:
Первое, что мне бросилось в глаза, так это то, что участок 280-320 ципрозина схож аж с четырьмя участками просапозина.
Второе, что участок 330-380 ципрозина гомологичен двум участкам просапозина.
Третье, что, судя по карте, в участках локального сходства именно в просапозине заметное количество инделей (только один виден в ципрозине).
Вывод, который я могу сделать, исходя из информации, которую мне дала эта карта и выравнивание: попавшие в выравнивание участки белков гомологичны, а про непопавшие трудно сказать. Хоть и при низком проценте покрытия выравнивание белков процент идентичности мал, малое значение e-value даёт мне возможность сказать, что найдённая находка не случайна, а значит, скорее всего, данные участки белков гомологичны.
Также стоит отметить, что