Учебный сайт Сергея Пушкарева

Навигация по сайту:

Практикум 10. Матрицы аминокислотных замен. Карта локального сходства

1. Карта локальноо сходства двух полипротеинов

Программой BLASTP было произведено выравнивание полипротеинов (АС=P03301.3) из полиовируса первого типа и (АС=P03307.2) из вируса ящура штамма А5.

Карта локального сходства P03301.3 и P03307.2

Для двух лучших выравниваний построили таблицу.

Identity, % Similarity (Positives), % Длина участка в P03301.3, а.о. Длина участка в P03307.2, а.о. Число гэпов Score Score в битах
1 29 49 615 644 63 652 255
2 37 51 277 263 26 400 158

Для двух наилучших выравниваний были найдены соответствующие гомологичные белки (или их окрестности). Для выравнивания №2 это оказался белок 2С — весьма консервативный среди всех пикорнавирусов, играющий важную роль в репликации вирусной РНК, по-видимому, путем реорганизации мембранных структур клетки хозяина для создания специальных везикул, на которых происходит репликация вирусного генома[1].
Выравнивание №1 представляет собой, идущие друг за другом в обоих полипротеинах белки 3С и 3D. Согласно данным Uniprot, 3С является цистеиновой протеиназой, осуществляющей процессинг полипротеина. В FT записей Uniprot можно видеть сайты разрезов, которые вносит 3С (SITE Cleavage; by Protease 3C для полиовируса, SITE Cleavage; by picornain 3C для вируса ящура). 3D является РНК-зависимой РНК-полимеразой. Координаты белков в полипротеинах и участков гомологии в выравниваниях приведены в таблице ниже.

Вирус Координаты 2С в полипротеине Координаты 3С+3D в полипротеине Координаты участка в выравнивании №1 Координаты участка в выравнивании №2
Вирус полиомиелита 1128–1456 1566–2209 1594–2208 1143–1419
Вирус ящура 1108–1425 1650–2332 1684–2327 1121–1383

2. Сравнение веса выравнивания со случайным

В качестве гомологичных белков выбрали PARC_ECOLI и 100 перемешанных последовательностей PARC_BACSU, в качестве негомологичных — EPTA_ECOLI и 100 перемешанных последовательностей BLYA_BACSU. Для выравнивания и перемешивания использовали water и shuffleseq из EMBOSS. Для анализа результатов случайного выравнивания использовался конвейер bash-команд: grep Score <input_file> | sed -E 's/[[:alpha:]#:]//g' | sort -h > <output_file> Нужные строки извлекались с помощью sed.

Гомология последовательностей Score Shuffled Score Score, bits p-value
Upper quartile Median
Гомологичные 969.5 85.75 78.5 123.90 5.04×10-38
Негомологичные 35 50.5 44.5 -0.58 1.49

Из таблицы видно, что вероятность получить выравнивание лучше или такое же в случае гомологичных белков крайне мала. Для пары негомологичных белков p>1, следовательно, такое выравнивание является случайным. Медианное значение Score для случайных последовательностей даже является большим по сравнению с весом выравнивания негомологичных белков.

Изменение параметров water

Было проведено выравнивание со штрафом за продолжение инделя 4, что больше страндартного для water значения(0.5). Ожидаемо, из выравнивания исчез кусок после 582 остатка в PARC_ECOLI, где начинается большая индель в 49 гэпов. Суммарный штраф за эту индель составил 10 + 48*4 = 202, что оказалось больше, чем возможный Score при продолжении выравнивания. В районе 290 остатка PARC_ECOLI также можно наблюдать стремление алгоритма сократить количество гэпов: вес участка выравнивания соответствующий 290-297 а.о. в PARC_ECOLI со стандартными параметрами равен -14 (-21 за гэпы, -2 за непохожие аминокислоты, +9 за идентичные), с новыми параметрами добавляется еще -7 за гэпы; итого штраф -21. Конфигурация, которую выбрал алгоритм для выравнивания с новыми параметрами дает штраф в -17 (-20 за гэпы, -2 за непохожие аминокислоты, +5 за идентичные).

Выравнивание PARC_ECOLI и PARC_BACSU со стандартными параметрами. При наведении курсора показывается выравнивание с измененным штрафом за продолжение гэпа.

Для water со штрафом за продолжение инделя = 4 таблица из предыдущего упражнения выглядит следующим образом (выравниваются те же белки).

Гомология последовательностей Score Shuffled Score Score, bits p-value
Upper quartile Median
Гомологичные 898 43.5 40 246 8.84×10-75
Негомологичные 35 35.5 33 1.8 0.29

С большим штрафом за продолжение инделя Score случайных последовательностей снизился, соответственно возрос Score неслучайного выравнивания в битах и уменьшился p-value. Вес выравнивания негомологичных белков не изменился, так как он не содержит инделей:

EPTA_ECOLI       352 NGECYDEVLFHGLEEYINNLQGDGV    376
	      |...|.||::.|...||:...|..:
BLYA_BACSU       343 NSNGYWEVIYKGKRGYISGQFGSTI    367
Локальное выравнивание EPTA_ECOLI и BLYA_BACSU, полученное с помощью water.

Проверка формулы для перевода в биты

Формула для первода Score в биты.

Для проверки формулы (1) выравняли PARC_ECOLI и 1000 перемешанных PARC_BACSU. Для уровней верхних 18 и 14 весов Score составил 97 и 90 соответственно. Медиана получилась равной 80.5. После пересчета в биты уровня 18 получили значение в 2.74 бита, что, конечно не совсем равно 3 битам, но достаточно близко.

3. BLAST: поиск гомологов в банке

В выдаче BLAST для нашего белка (ALV08439.1)содержалось всего два белка. Данные по ним и их выравниваниям приведены в таблицах ниже.

Данные по найденным белкам

Swiss-Prot ID Swiss-Prot AC Organism
1 HMUT_YERPE Q56991 Yersinia pestis
2 ANDI_EMEVA A0A097ZPE8 Emericella variicolor (Aspergillus stellatus)

Данные выравниваний

Identity, % Similarity (Positives), % Длина участка в ALV08439.1, а.о. Длина участка в найденном белке, а.о. Число гэпов Score Score в битах Expect Покрытие ALV08439.1 выравниванием, %
1 40 61 265 255 10 456 180 5×10-54 88
2 33 48 51 58 7 69 31.2 9.1 17

Если первый найденный белок принадлежит бактерии (а наш ALV08439.1 — это белок прокариота), покрывает значительную часть нашего белка и функционально похож на него(оба участвуют в транспорте веществ через мембрану, связывая их и доставляя к каналу), то второй принадлежит эукариотическому организму, имеет малый процент покрытия и функционально не похож на ALV08439.1(является дегидрогеназой и участвует в биосинтезе грибного меротерпеноида андитомина). Скорее всего HMUT_YERPE является гомологом ALV08439.1, а ANDI_EMEVA нет. Информация о функциях белков взята из их страниц в UniProt.

Использованная литература

  • Teterina N.L. et al. Poliovirus 2C protein determinants of membrane binding and rearrangements in mammalian cells. J. Virol. December 1997 vol. 71 no. 12 8962-8972

© Пушкарев Сергей, 2018