Для создания и сравнения выравниваний были взяты последовательности предсердечного найтрийуретического гормона (Atrial natriuretic peptide) в найтрийуретическом пептиде А (Natriuretic peptides A) и эпикардиального вещества кровеносных сосудок (Blood vessel epicardial substance, перевод может быть некорректным). Первая последовательность принадлежит гормону, который играет важную роль в посредничестве между сердечно-сосудистой и почечной регуляцией гомеостаза. Он регулирует расширение кровеносных сосудов, диурез, натрийурез, электролитный баланс[1]. В жировой ткани регулирует энергетический обмен[2]. При беременности гормон предотвращает гипертензию[3]. Эпикардиальное вещество кровеносных сосудов вовлечено в процессах клеточной адгезии, клеточно миграции. Предполагается, что белок может участвовать в развитии скелетной и сердечной мускулатуры[4].
Были выбраны две последовательности предсердечного натрийуретического гормона, представленные у Mus musculus (координаты: 123 – 150) и Homo sapiens (координаты: 124 – 151), и одна последовательность Первое выравнивание было решено провести с помощью программы множественного выравнивания muscle (для разнообразия), визуализация Jalview на Рис. 1. Второе выполнено программой для выравнивания на сайте UniProt, визуализация на Рисунке 2. Проект Jalview с обоими выравниваниями сохранён в файле pr12.jvp. Окрашивание проведено по идентичности 50% с помощью матрицы BLOSUM62.
Различия выравнивания относительно третьей последовательности видны невооружённым глазом. Конкретные примеры различий можно посмотреть в Таблице 1.
№ | muscle | UniProt |
---|---|---|
1 | Ser(1)-Asp(17) | Ser(1)-Phe(42) |
2 | Arg(11)-Lis(116) | Arg(11)-Gly(52) |
3 | Asp(13)-Glu(118) | Asp(13)-Ile(64) |
В этом пункте рассматривается два белка: ципрозин и просапозин. Требуемая в задании информация для удобства изложена в Таблице 2.
Белок | ID | AC | Полное рекомендуемое название |
---|---|---|---|
Ципрозин | CYPR1_CYNCA | P40782 | Cyprosin |
Просапозин | SAP_MOUSE | Q61207; Q60861; Q64006; Q64219 | Prosaposin |
ыравнивание последовательностей было проведено с помощью Blast. В графе "Dot Plot" можно было посмотреть карту локального схдодства белков, представленнуб на Рисунке 1.
Как видно из карты, участку ципрозина с примерным интервалом 285–320 позиций соответствует сразу четыре участка просапозина, равномерно распределённые попоследовательности. В базе Pfam был проведён поиск по исследуемым белкам. Результаты для ципрозина и для просапозина показали, что эти участки соотвествуют комбинации доменов SapB_1 и SapB_2. Информация на странице Pfam о SapB_2 объясняет соотношение участков. На оси Y представлена последовательность просапозина, выделенная из растения, а именно кардона. Стандартным вариантом для млекопитающих в просапозине является наличие четырёх связанных пар SapB1-SapB2, но у растений между субдоменами имеется вставка, что на карте показано короткими инсерциями около 300 позиции у ципрозина относительно второго повтора у просапозина и около 305 позиции относительно первого. При этом у кардона заментна только одна пара SapB1-вставка-SapB2.
Также у просапозина участок с примерным интервалом с 50 по 95 позицию хорошо выровнялся с 380–490 позициями ципрозина, т.е. начало первой последовательности с концом второй. Можно заметить, что на этом участке произошла либо делеция около 345 позиции ципрозина, либо инсерция около 60 позиции просапозина.
Лучше всего выравнивание прошло для участка с примерным интервалом с 285 по 390 позицию для ципрозина и 380–490 для просапозина, именно эта часть будет рассматриваться далее. Участок начинается с уже упомянутого повтора домена в третьей позиции у просапозина. Разрывы в прямой находятся примерно на равном расстоянии. Возможно, это результат одновременных инсерций в ципрозине или делециий в просапозине.
Ниже представлено лучшее по весу локальное выравнивание из выдачи Blast. Query — участок ципрозина, Sbjkt — участок просапозина.
Score Expect Method Identities Positives Gaps 42.4 bits(98) 2e-08 Compositional matrix adjust. 29/129(22%) 59/129(45%) 22/129(17%)
Query 285 QCKSLVDQYGKSMIEMLLSEEQPEKICSQMKLCS-----FDGSHDTSMIIESVVDK---- 335 +C+ +V +G S++++ + E P +C + LC+ + + I S + K Sbjct 358 KCQEVVGTFGPSLLDIFIHEVNPSSLCGVIGLCAARPELVEALEQPAPAIVSALLKEPTP 417 Query 336 ----SKGKSSGLPMRCVP---------CARWVVWMQNQIRQNETEENIINYVDKLCERLP 382 ++ K S LP P C + V+++++ + +N T+E I+ ++K C LP Sbjct 418 PKQPAQPKQSALPAHVPPQKNGGFCEVCKKLVLYLEHNLEKNSTKEEILAALEKGCSFLP 477 Query 383 SPMGESAVD 391 P + D Sbjct 478 DPYQKQCDD 486
Если обратиться к записям последовательностей, в строке FT, соответствующей выровненному участку ципрозина, можно узнать, что отрезок с 281 по 384 позиции представляет из себя домен "Saposin B-type". С просапозином всё более неоднозначно. Выровненный участок захватывает сразу два домена: "Saposin B-type 3" (313—394 позиции) и "Saposin B-type 3" (438—519 позиции).
Также было проведено локальное парное выравнивание тех же последовательностей программой water с параметрами по умолчанию. Ниже представлен отредактированный результат (удалены строчки описания, не представляющие в данном случае важности).
# Length: 253 # Identity: 46/253 (18.2%) # Similarity: 88/253 (34.8%) # Gaps: 93/253 (36.8%) # Score: 135.0
CYPR1_CYNCA 231 QFEM---GDVLIGDKTTGFCASG----CAAIADSGTSLLAGTTTIVTQIN 273 ||.| .::::.:.|......| ||.:.|...: SAP_MOUSE 321 QFVMNKFSELIVNNATEELLVKGLSNACALLPDPART------------- 357 CYPR1_CYNCA 274 QAIGAAGVMSQQCKSLVDQYGKSMIEMLLSEEQPEKICSQMKLCS----- 318 :|:.:|..:|.|::::.:.|..|..:|..:.||: SAP_MOUSE 358 -----------KCQEVVGTFGPSLLDIFIHEVNPSSLCGVIGLCAARPEL 396 CYPR1_CYNCA 319 FDGSHDTSMIIESVVDK--------SKGKSSGLPMR---------CVPCA 351 .:.....:..|.|.:.| ::.|.|.||.. |..|. SAP_MOUSE 397 VEALEQPAPAIVSALLKEPTPPKQPAQPKQSALPAHVPPQKNGGFCEVCK 446 CYPR1_CYNCA 352 RWVVWMQNQIRQNETEENIINYVDKLCERLPSPMGESAVD---------- 391 :.|:::::.:.:|.|:|.|:..::|.|..||.|..:...| SAP_MOUSE 447 KLVLYLEHNLEKNSTKEEILAALEKGCSFLPDPYQKQCDDFVAEYEPLLL 496 CYPR1_CYNCA 392 ------------CSSLSSMPNIAFTVGGKTFNLSPEQYVLKVGEGATAQC 429 ||.: .:.|..|.|.:| |.:| SAP_MOUSE 497 EILVEVMDPGFVCSKI---------------GVCPSAYKLLLG---TEKC 528 CYPR1_CYNCA 430 ISG 432 :.| SAP_MOUSE 529 VWG 531
Как видно, выравнвания отличаются не только весом, идентичностью и гэпами (интересно, что эвристический алгоритм по этим характеристикам справился лучше точного), но и выровненными участками. В выдаче Blast 285—391 и 358—486, а в выдаче water 231—432 и 321—531 соответственно. Выше было описано соответствие участков расположению доменов. Заметно, что первое выравнивание лучше соотвествует структуре первой последовательности, а второе — второй.
Интересно, что достаточно большие участки обоих выравниваний совпадают полностью. Например, 285/358—346/423, а качественные различия не такие большие. Так, после этого участка в первом выравнивании идёт участок CVP/VPP, а во втором идут гэпы, а участок 359-CVP-361 ципрозина во втором выравнивании соответствует не 423-VPP-425, а 442-CEV-445 у просапозина.
Сравнение представленных выше выравниваний снова показало нам, что выравнивание само по себе может не только не дать необходимые данные, но даже заставить сделать ложные выводы. Для более корректной и полной картины в каждом случае необходимо учитывать множество факторов, изменять параметры выравнивания в зависимости от ситуации, проводить сравнение выравниваний из различных программ и анализировать соответствие структурам белков.