Алгоритм Blast. Матрицы BLOSUM. Карты локального выравнивания

1. Поиск отличий между двумя разными выравниями одних и тех же последовательностей


Для создания и сравнения выравниваний были взяты последовательности предсердечного найтрийуретического гормона (Atrial natriuretic peptide) в найтрийуретическом пептиде А (Natriuretic peptides A) и эпикардиального вещества кровеносных сосудок (Blood vessel epicardial substance, перевод может быть некорректным). Первая последовательность принадлежит гормону, который играет важную роль в посредничестве между сердечно-сосудистой и почечной регуляцией гомеостаза. Он регулирует расширение кровеносных сосудов, диурез, натрийурез, электролитный баланс[1]. В жировой ткани регулирует энергетический обмен[2]. При беременности гормон предотвращает гипертензию[3]. Эпикардиальное вещество кровеносных сосудов вовлечено в процессах клеточной адгезии, клеточно миграции. Предполагается, что белок может участвовать в развитии скелетной и сердечной мускулатуры[4].

Были выбраны две последовательности предсердечного натрийуретического гормона, представленные у Mus musculus (координаты: 123 – 150) и Homo sapiens (координаты: 124 – 151), и одна последовательность Первое выравнивание было решено провести с помощью программы множественного выравнивания muscle (для разнообразия), визуализация Jalview на Рис. 1. Второе выполнено программой для выравнивания на сайте UniProt, визуализация на Рисунке 2. Проект Jalview с обоими выравниваниями сохранён в файле pr12.jvp. Окрашивание проведено по идентичности 50% с помощью матрицы BLOSUM62.


Рисунок 1. Визуализация выравнивания muscle

Рисунок 2. Визуализация выравнивания UniProt

Различия выравнивания относительно третьей последовательности видны невооружённым глазом. Конкретные примеры различий можно посмотреть в Таблице 1.

Таблица 1. Различия в выравниваниях
muscle UniProt
1 Ser(1)-Asp(17) Ser(1)-Phe(42)
2 Arg(11)-Lis(116) Arg(11)-Gly(52)
3 Asp(13)-Glu(118) Asp(13)-Ile(64)

2. Построение карты локального сходства пары белков

В этом пункте рассматривается два белка: ципрозин и просапозин. Требуемая в задании информация для удобства изложена в Таблице 2.

Таблица 2.
Белок ID AC Полное рекомендуемое название
Ципрозин CYPR1_CYNCA P40782 Cyprosin
Просапозин SAP_MOUSE Q61207; Q60861; Q64006; Q64219 Prosaposin

ыравнивание последовательностей было проведено с помощью Blast. В графе "Dot Plot" можно было посмотреть карту локального схдодства белков, представленнуб на Рисунке 1.

Рисунок 1. Карта парного выравнивания белков

Как видно из карты, участку ципрозина с примерным интервалом 285–320 позиций соответствует сразу четыре участка просапозина, равномерно распределённые попоследовательности. В базе Pfam был проведён поиск по исследуемым белкам. Результаты для ципрозина и для просапозина показали, что эти участки соотвествуют комбинации доменов SapB_1 и SapB_2. Информация на странице Pfam о SapB_2 объясняет соотношение участков. На оси Y представлена последовательность просапозина, выделенная из растения, а именно кардона. Стандартным вариантом для млекопитающих в просапозине является наличие четырёх связанных пар SapB1-SapB2, но у растений между субдоменами имеется вставка, что на карте показано короткими инсерциями около 300 позиции у ципрозина относительно второго повтора у просапозина и около 305 позиции относительно первого. При этом у кардона заментна только одна пара SapB1-вставка-SapB2.

Также у просапозина участок с примерным интервалом с 50 по 95 позицию хорошо выровнялся с 380–490 позициями ципрозина, т.е. начало первой последовательности с концом второй. Можно заметить, что на этом участке произошла либо делеция около 345 позиции ципрозина, либо инсерция около 60 позиции просапозина.

Лучше всего выравнивание прошло для участка с примерным интервалом с 285 по 390 позицию для ципрозина и 380–490 для просапозина, именно эта часть будет рассматриваться далее. Участок начинается с уже упомянутого повтора домена в третьей позиции у просапозина. Разрывы в прямой находятся примерно на равном расстоянии. Возможно, это результат одновременных инсерций в ципрозине или делециий в просапозине.

Ниже представлено лучшее по весу локальное выравнивание из выдачи Blast. Query — участок ципрозина, Sbjkt — участок просапозина.


Score         Expect  Method                        Identities  Positives   Gaps
42.4 bits(98) 2e-08   Compositional matrix adjust.  29/129(22%) 59/129(45%) 22/129(17%)

Query 285 QCKSLVDQYGKSMIEMLLSEEQPEKICSQMKLCS-----FDGSHDTSMIIESVVDK---- 335 +C+ +V +G S++++ + E P +C + LC+ + + I S + K Sbjct 358 KCQEVVGTFGPSLLDIFIHEVNPSSLCGVIGLCAARPELVEALEQPAPAIVSALLKEPTP 417 Query 336 ----SKGKSSGLPMRCVP---------CARWVVWMQNQIRQNETEENIINYVDKLCERLP 382 ++ K S LP P C + V+++++ + +N T+E I+ ++K C LP Sbjct 418 PKQPAQPKQSALPAHVPPQKNGGFCEVCKKLVLYLEHNLEKNSTKEEILAALEKGCSFLP 477 Query 383 SPMGESAVD 391 P + D Sbjct 478 DPYQKQCDD 486

Если обратиться к записям последовательностей, в строке FT, соответствующей выровненному участку ципрозина, можно узнать, что отрезок с 281 по 384 позиции представляет из себя домен "Saposin B-type". С просапозином всё более неоднозначно. Выровненный участок захватывает сразу два домена: "Saposin B-type 3" (313—394 позиции) и "Saposin B-type 3" (438—519 позиции).

Также было проведено локальное парное выравнивание тех же последовательностей программой water с параметрами по умолчанию. Ниже представлен отредактированный результат (удалены строчки описания, не представляющие в данном случае важности).


# Length: 253
# Identity:      46/253 (18.2%)
# Similarity:    88/253 (34.8%)
# Gaps:          93/253 (36.8%)
# Score: 135.0

CYPR1_CYNCA 231 QFEM---GDVLIGDKTTGFCASG----CAAIADSGTSLLAGTTTIVTQIN 273 ||.| .::::.:.|......| ||.:.|...: SAP_MOUSE 321 QFVMNKFSELIVNNATEELLVKGLSNACALLPDPART------------- 357 CYPR1_CYNCA 274 QAIGAAGVMSQQCKSLVDQYGKSMIEMLLSEEQPEKICSQMKLCS----- 318 :|:.:|..:|.|::::.:.|..|..:|..:.||: SAP_MOUSE 358 -----------KCQEVVGTFGPSLLDIFIHEVNPSSLCGVIGLCAARPEL 396 CYPR1_CYNCA 319 FDGSHDTSMIIESVVDK--------SKGKSSGLPMR---------CVPCA 351 .:.....:..|.|.:.| ::.|.|.||.. |..|. SAP_MOUSE 397 VEALEQPAPAIVSALLKEPTPPKQPAQPKQSALPAHVPPQKNGGFCEVCK 446 CYPR1_CYNCA 352 RWVVWMQNQIRQNETEENIINYVDKLCERLPSPMGESAVD---------- 391 :.|:::::.:.:|.|:|.|:..::|.|..||.|..:...| SAP_MOUSE 447 KLVLYLEHNLEKNSTKEEILAALEKGCSFLPDPYQKQCDDFVAEYEPLLL 496 CYPR1_CYNCA 392 ------------CSSLSSMPNIAFTVGGKTFNLSPEQYVLKVGEGATAQC 429 ||.: .:.|..|.|.:| |.:| SAP_MOUSE 497 EILVEVMDPGFVCSKI---------------GVCPSAYKLLLG---TEKC 528 CYPR1_CYNCA 430 ISG 432 :.| SAP_MOUSE 529 VWG 531

Как видно, выравнвания отличаются не только весом, идентичностью и гэпами (интересно, что эвристический алгоритм по этим характеристикам справился лучше точного), но и выровненными участками. В выдаче Blast 285—391 и 358—486, а в выдаче water 231—432 и 321—531 соответственно. Выше было описано соответствие участков расположению доменов. Заметно, что первое выравнивание лучше соотвествует структуре первой последовательности, а второе — второй.

Интересно, что достаточно большие участки обоих выравниваний совпадают полностью. Например, 285/358—346/423, а качественные различия не такие большие. Так, после этого участка в первом выравнивании идёт участок CVP/VPP, а во втором идут гэпы, а участок 359-CVP-361 ципрозина во втором выравнивании соответствует не 423-VPP-425, а 442-CEV-445 у просапозина.

Сравнение представленных выше выравниваний снова показало нам, что выравнивание само по себе может не только не дать необходимые данные, но даже заставить сделать ложные выводы. Для более корректной и полной картины в каждом случае необходимо учитывать множество факторов, изменять параметры выравнивания в зависимости от ситуации, проводить сравнение выравниваний из различных программ и анализировать соответствие структурам белков.

Список литературы

  1. John, S. W., Veress, A. T., Honrath, U., Chong, C. K., Peng, L., Smithies, O., & Sonnenberg, H. (1996). Blood pressure and fluid-electrolyte balance in mice with reduced or absent ANP. The American journal of physiology, 271(1 Pt 2), R109–R114. https://doi.org/10.1152/ajpregu.1996.271.1.R109
  2. Bordicchia, M., Liu, D., Amri, E. Z., Ailhaud, G., Dessì-Fulgheri, P., Zhang, C., Takahashi, N., Sarzani, R., & Collins, S. (2012). Cardiac natriuretic peptides act via p38 MAPK to induce the brown fat thermogenic program in mouse and human adipocytes. The Journal of clinical investigation, 122(3), 1022–1036. https://doi.org/10.1172/JCI59701
  3. Cui, Y., Wang, W., Dong, N., Lou, J., Srinivasan, D. K., Cheng, W., Huang, X., Liu, M., Fang, C., Peng, J., Chen, S., Wu, S., Liu, Z., Dong, L., Zhou, Y., & Wu, Q. (2012). Role of corin in trophoblast invasion and uterine spiral artery remodelling in pregnancy. Nature, 484(7393), 246–250. https://doi.org/10.1038/nature10897
  4. Википедия, английская, страница Blood vessel epicardial substance, последний доступ 28.05.20. 01:46