Учебный сайт
Владимира Ноздрина

Сравнение выравниваний

 Для сравнения были выбраны выравнивания, полученные из CARP_CRYPA и PEPA3_PENJA с помощью water и blastp, т.е. два локальных выравнивания. Проект Jalview можно скачать здесь, а текстовые файлы вырваниваний в формате fasta здесь: water, blastp.
Программа water запускалась из командной строки, а blastp через сайт BLAST NCBI (выравнивание было открыто в MSA viewer и оттуда был скачан файл в формате fasta).
 В целом, выравнивания получились очень похожими, удалось обнаружить всего три отличия:
  1. Размер.
     Выравнивание blastp оказалось немного короче: покрытие 93.32% для CARP_CRYPA и 94.92% для PEPA3_PENJA, в то время как покрытие локального выравнивания программой water составляет 97.61% для CARP_CRYPA и 97.97% для PEPA3_PENJA. Это небольшая разница, но всё же какая-то часть информации отсутствует в выравнивании, полученном с помощью алгоритма blastp.
  2. Индель.
     Water и blast по-разному поставили гэпы после Pro150 и Pro129 в CARP_CRYPA и PEPA3_PENJA соответственно. Ниже представлены изображения того, как это выглядит.
    water
    blastp
     По версии water Ser153 из CARP_CRYPA гомологичен Ser130 из PEPA3_PENJA, т.е. прозошла инсерция-делеция пары Ser151 и Lys152 из CARP_CRYPA. В выравнивании из blastp, наоборот, Ser130 из PEPA3_PENJA гомологичен Ser153 из CARP_CRYPA и произошла индель пары Lys152 и Ser153. Понятно, почему это различие возникло: обе ситуации дают одинаковый вклад в вес выравнивания, поэтому, скорее всего, программысделали этот выбор случайно.
  3. Неконсервативный участок.
     В позициях 73-90 у CARP_CRYPA и 64-72 у PEPA3_PENJA находится участок, в котором практически не совпадают аминокислоты. Этот участок обоими алгоритмами интерпретируется по-разному: в случае water участок 86-89 первого белка гомологичен участку 68-70 второго белка, а в случае blastp участок 77-79 CARP_CRYPA гомолгичен участку 68-70 PEPA3_PENJA. Вряд ли кто-то из них прав, потому что этот участок, по-видимому, не особо значимый и в процессе эволюции с ним могло происходить что угодно, поэтому установить какую-либо гомологию на этом участке очень проблематично.
     Ниже представлены изображения этого фрагмента из обоих выравниваний.
    water
    blastp

Карта локального сходства

Первый белок: ID: HXD10_HUMAN
AC: P28358; Q6NT10;
Рекомендуемое имя: Homeobox protein Hox-D10
Второй белок: ID: EXD_DROME
AC: P40427; A4V4K5; Q0KHS1; Q9V3S2;
Рекомендуемое имя: Homeobox protein extradenticle
Выравнивание было получено с помощью NCBI BLAST, карта локального сходства представлена на Рисунке 1.
Рисунок 1. Карта локального сходства, полученная с помощью NCBI BLAST.
 Как вино из карты локального сходства, у человеческого белка есть несколько участков, гомологичных примерно одному и тому же участку белка из дрозофилы. Это можно объяснить тем, что в человеческом гомеобелке раньше содержались повторы, которые к настоящему времени стали менее похожими, а у белка дрозофилы этих повторов либо никогда не было, либо она их полностью утратило. Также это могло произойти чисто случайно: кусочки достаточно маленькие, чтобы совпасть по случайным причинам.
 Для дальнейшего рассмотрения было выбрано выравнивание с наибольшим весом из всех. Оно соответствует самой правой линии на карте локального сходства. Посмотреть на выравнивание можно ниже.
Score:35.8 bits(81), Expect:9e-07, 
Method:Compositional matrix adjust., 
Identities:23/70(33%), Positives:39/70(55%), Gaps:8/70(11%)

Query  258  SNWLTAKSGRKKRCPYTKHQTLELEKEFLF----NMYLTRERRLEISKSVNLTDRQVKIW  313
            S +L A   R+KR  ++K Q  E+  E+ +    N Y + E + E+++   +T  QV  W
Sbjct  233  SRFLDA---RRKRRNFSK-QASEILNEYFYSHLSNPYPSEEAKEELARKCGITVSQVSNW  288

Query  314  FQNRRMKLKK  323
            F N+R++ KK
Sbjct  289  FGNKRIRYKK  298
Выдача BlAST целиком
 Также было проведено выравнивание с помощью water. Выравнивание из BLAST целиком попадает в это выравнивание (у них даже совпадют номера последних остаткой), но в выравнивании water есть еще участок примерно такой же длины в самом начале. Тем не менее, если сравнивать только области, в которых выравнивания перекрываются, оказывается, что они полностью идентичны: три гэпа в одних и тех же местах. Выравнивание water представлено ниже.
HXD10_HUMAN      195 LQMEKKMNEPVSGQEPTKVSQVESPEAKGGLPEERSCLAEVSVSSPEVQE    244
                     |..|:....|::.:|..::.|:                .....||.::|.
EXD_DROME        187 LLREQSRTRPITPKEIERMVQI----------------IHKKFSSIQMQL    220

HXD10_HUMAN      245 KESKEEIKSDTPTSNWLTAKSGRKKRCPYTKHQTLELEKEFLF----NMY    290
                     |:|..|... ...|.:|.|   |:||..::| |..|:..|:.:    |.|
EXD_DROME        221 KQSTCEAVM-ILRSRFLDA---RRKRRNFSK-QASEILNEYFYSHLSNPY    265

HXD10_HUMAN      291 LTRERRLEISKSVNLTDRQVKIWFQNRRMKLKK    323
                     .:.|.:.|:::...:|..||..||.|:|::.||
EXD_DROME        266 PSEEAKEELARKCGITVSQVSNWFGNKRIRYKK    298
Файл с выравниванием целиком
 При просмотре поля FT из записей UniProt обоих белков оказалось, что участки, попавшие в выравнивание BLAST, практически точно соответствуют участкам связывания ДНК обоих белков. Ниже можно посмотреть, какие именно остатки задействованы в связывании ДНК у этих белков.
Человек:
FT   DNA_BIND        266..325
FT                   /note="Homeobox"
FT                   /evidence="ECO:0000255|PROSITE-ProRule:PRU00108"  

Дрозофила:
FT   DNA_BIND        238..300
FT                   /note="Homeobox; TALE-type"
FT                   /evidence="ECO:0000255|PROSITE-ProRule:PRU00108"
 Итак, участки, попавшие в исследуемое вырванивание BLAST, достаточно сильно похожи (33% идентичности, 55% схожести), а также имеют похожую функцию (связывание ДНК), из чего можно сделать вывод о гомологичности этих двух участков. В остальном у этих белков довольно мало участков сходства, так что они, если и имеют общее происхождение, довольно сильно разошлись в процессе эволюции.