Практикум 12. Алгоритм BLAST, карты локального сходства
В ходе этого практикума были описаны различия, возникающие при выравнивании двух белковых последовательностей при помощи разных алгоритмов, а также построена и описана карта локального сходства двух белков.
Сравнение различных выравниваний
Для выполнения задания были выбраны белки CYPR1_CYNCA (ципрозин из Cynara cardunculus, UniProt AC: P40782) и SAP_MOUSE (просапозин из Mus musculus, UniProt AC: Q61207). Их последовательности были получены из базы данных Swiss-Prot. Далее для них были построены два локальных выравнивания: одно - при помощи программы water, другое - при помощи BLASTP (из всех выравниваний, выданных программой, был выбран вариант с наибольшим весом). Обе программы были запущены из командной строки с соответствующими входными данными. Ознакомиться с выдачей программ можно здесь (water) и здесь (BLASTP). Выравнивание water превышало по длине выравнивание BLASTP, поэтому сравнивались только участки, общие для обоих выравниваний.
Выяснилось, что рассматриваемые выравнивания одинаковы, за исключением трёх позиций. Информация об этих различиях представлена в таблице 1.
А. о. CYPR1_CYNCA | Сопоставленный ему а. о. SAP_MOUSE, water |
Сопоставленный ему а. о. SAP_MOUSE, BLASTP |
---|---|---|
Cys[347] | Cys[442] | Val[433] |
Val[348] | Glu[443] | Pro[434] |
Pro[349] | Val[444] | Pro[435] |
На рисунке 1 представлена иллюстрация сравниваемых выравниваний и найденных отличий. Отличающиеся сопоставления окрашены по проценту идентичности.
Можно отметить, что по матрице BLOSUM62 вес сопоставления C-C V-G P-V (water) равен 9-3-2=4, и вес C-V V-P P-P (BLASTP) равен -1-2+7=4. Выходит, что в данном случае при равенстве весов различие в выравнивании было обусловлено не тем, что алгоритм BLAST не всегда находит оптимальное выравнивание. Возможно, объяснение заключается в различных настройках по умолчанию; в частности, для water штраф за открытие гэпа равен 10.0, за удлиннение - 0.5, в то время как для BLASTP - 11.0 и 1.0 соответственно. Чтобы проверить это предположение, программа water была запущена ещё раз с теми же входными данными, за исключением штрафов, которые были приравнены к таковым для BLASTP. Результат не изменился; это может свидетельствовать о том, что причиной различий послужили не различные данные на входе, а собственнр работа алгоритма.
Построение карты локального сходства двух белков
Для этой цели были выбраны белки (full recommended name): Zinc finger protein 24 (из Homo sapiens, ID: ZNF24_HUMAN, AC: P17028) и Zinc finger protein AZF3 (из Arabidopsis thaliana, ID: AZF3_ARATH, AC: Q9SSW0).
Последовательности этих белков были выровнены при помощи BLAST, и для них была построена карта локального сходства (рисунок 2).
Основываясь на приведённой карте, можно предположить, что:
- исследуемые белки имеют повторяющиеся похожие участки (вероятно, цинковые пальцы)
- Zinc finger protein 24 имеет 4 таких участка ближе к концу последовательности; Zinc finger protein AZF3 - 2 участка
- в целом последовательности белков, за исключением упомянутых участков, не слишком схожи друг с другом, т. к. других локальных выравниваний построено не было
Открыв записи о соответствующих белках в UniProt, видим следующее:
Таким образом, предположение о наличии и числе цинковых пальцев подтвердилось.
Проверим, совпадают ли границы локальных выравниваний, которые выдал BLAST, с границами цинковых пальцев. В таблице 2 приведена необходимая информация об этих выравниваниях.
№ | Начало, Zinc finger protein 24 | Конец, Zinc finger protein 24 | Начало, Zinc finger protein AZF3 | Конец, Zinc finger protein AZF3 |
---|---|---|---|---|
1 | 242 | 273 | 108 | 140 |
2 | 276 | 329 | 71 | 140 |
3 | 300 | 357 | 67 | 140 |
4 | 328 | 359 | 67 | 99 |
Сравнивая информацию из таблицы с данными из UniProt, делаем вывод, что выровненные участки действительно являются цинковыми пальцами, т. к. их границы можно взаимно сопоставить друг другу. Сделав это, получилось выяснить, что 1-й участок (цинковый палец) из Zinc finger protein 24 алгоритм сопоставил 2-му из Zinc finger protein AZF3, 2-й и 3-й вместе » - 1-му и 2-му », 3-й и 4-й вместе » - ещё раз 1-му и 2-му », 4-й » - 1-му ». Такое сочетание 4-х перекрывающихся локальных выравниваний привело к тому, что мы видим на карте локального сходства достаточно любопытный паттерн.
Сравнение локальных выравниваний, полученных с помощью water и BLAST
Далее приведено лучшее по весу из выравниваний, выданных BLAST:
Score Expect Method Identities Positives Gaps 35.8 bits(81) 4e-07 Compositional matrix adjust. 25/74(34%) 30/74(40%) 16/74(21%) Query 300 VHTGEKP-YKCLECGKAFSQNSGLINHQRIH---------------TGEKPYECVQCGKS 343 V EKP YKC C K FS L H+ H T K + C CGKS Sbjct 67 VTVAEKPSYKCGVCYKTFSSYQALGGHKASHRSLYGGGENDKSTPSTAVKSHVCSVCGKS 126 Query 344 YSQSSNLFRHQRRH 357 ++ L H+R H Sbjct 127 FATGQALGGHKRCH 140
Ознакомиться с локальным выравниванием этих же белков при помощи water можно здесь.
Нетрудно заметить, что выравнивание water охватывает несколько бóльшие участки последовательностей, чем выравнивание BLAST (300 - 368 и 67 - 172 против 300 - 357 и 67 - 140 соответственно). На том участке, который входит в оба выравнивания, они абсолютно идентичны. Отметим, что участок, не вошедший в выравнивание BLAST, содержит множество гэпов; возможно, это послужило причиной различия. Запустив water ещё раз с параметрами штрафов за открытие гэпа - 11.0, за продолжение - 1.0 (настройки BLAST по умолчанию), получилось добиться того, что выдача полностью повторяла выравнивание BLAST. Таким образом, в данном случае различие в длине локального выравнивания объяснялось настройками программ.