Практикум 9. Выравнивание последовательностей

2. Глобальное парное выравнивание гомологичных белков

Для этого задания отобрал следующие пары белков: DCUP_ECOLI и DCUP_BACSU — декарбоксилаза уропорфириногена; SYV_ECOLI и SYV_BACSU — валил-тРНК синтетаза; PDEH_ECOLI и PDEH_BACSU — фосфодиэстераза циклического диГМФ. Последовательности в формате .fasta были скачаны при помощи утилиты seqret в EMBOSS: seqret sw:protein_id -outseq fasta::protein_id.fasta. Для подсчета числа инделей использовался скрипт из 1 задания.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score Identity Similarity Gaps Indels
Декарбоксилаза уропорфириногена DCUP_ECOLI DCUP_BACSU 629.5 38.9% 56.2% 23 9
Валил-тРНК синтетаза SYV_ECOLI SYV_BACSU 2060.5 42.3% 61.1% 107 19
Фосфодиэстераза циклического диГМФ PDEH_ECOLI PDEH_BACSU 70 12.9% 20.0% 268 15

3. Локальное парное выравнивание гомологичных белков

Для подсчета Coverage нужно воспользоваться формулой: Coverage = (Xs - Xe + 1)/L * 100%, где Xs и Xe — это соответственно координаты начала и координаты конца последовательности (вычитанием координаты начала из координаты конца мы получим длину части последовательности, которая попала в выравнивание), L — длина последовательности.

Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score Identity Similarity Gaps Indels Coverage1 Coverage2
Декарбоксилаза уропорфириногена DCUP_ECOLI DCUP_BACSU 632.5 39.8% 57.7% 15 6 98.31% 96.60%
Валил-тРНК синтетаза SYV_ECOLI SYV_BACSU 2063 42.8% 61.7% 96 16 99.37% 98.52%
Фосфодиэстераза циклического диГМФ PDEH_ECOLI PDEH_BACSU 82.5 25.8% 39.6% 38 11 81.57% 45.97%

4. Комментарии к выравниваниям

Для определения, того, являются ли белки гомологичными, стоит взглянуть на метрику identity, как правило, она является достаточно надежным ориентиром для быстрого ответа. Если процент идентичности (identity) составляет более 20-25% на достаточно длинном интервале, то можно достаточно уверенно говорить о том, что белки по крайне мере содержат гомологичные участки. Similarity, все-таки в меньшей степени, но тоже информативна. Высокое сходство (similarity) при достаточно низком значении идентичности (identity), в случае, когда identity ниже порогового 20%, все еще может означать высокую вероятность гомологии. Если говорить о белках, рассматриваемых в этой работе, то DCUP_ECOLI и DCUP_BACSU, SYV_ECOLI и SYV_BACSU совершенно точно гомологичны по всей длине (следствием этого является также и схожесть результатов глобального и локального выравниваний, такая картина наблюдается, когда белки не имеют длинных несовпадающих участков). Ситуация с белками PDEH_ECOLI и PDEH_BACSU иная, данные белки не гомологичны по всей длине, на это указывают низкие значения метрик identity и similarity, а также разница в их длине практически в 2 раза. Результаты локального выравнивания: identity 25.8% и similarity 39.6% при длине выравнивания в 217 пн позволяют предположить, что с высокой долей вероятности белки обладают гомологичными участками.

5. Результат применения программ выравнивания к неродственным белкам

Для этого задания выбрал белки RL23_ECOLI и FOLB_BACSU.

Таблица 3. Характеристики глобального парного выравнивания случайной пары белков
ID 1 ID 2 Score Identity Similarity Gaps Indels
RL23_ECOLI FOLB_BACSU 18 17.7% 23.4% 62 7
Таблица 4. Характеристики локального парного выравнивания случайной пары белков
ID 1 ID 2 Score Identity Similarity Gaps Indels Coverage1 Coverage2
RL23_ECOLI FOLB_BACSU 27.5 26% 40% 7 2 46% 39.17%

Очень низкие значения метрик для глобального выравнивания не позволяют предположить наличие гомологии. Результаты локального выравнивания кажутся многообещающими, однако при длине выравнивания в 50 ак identity 26% не является показателем гомологии, идентичность 13 аминокислот в данном случае является случайностью.

6. Множественное выравнивание белков и импорт в Jalview

Для этого задания я выбрал белки с мнемоникой DCUP, рекомендуемое полное имя белка для E.coli — Uroporphyrinogen decarboxylase (рус. декарбоксилаза уропорфириногена). Поиск по базе данных SwissProt выдал 514 записей с такой же мнемоникой. Выбрал следующие белки: DCUP_MAIZE, DCUP_YERPE, DCUP_SYNPW, DCUP_STAAS, DCUP_SALTI.

Для осуществления множественного выравнивания я выбрал программу MUSCLE, которая значительно удобнее и эффективнее, чем устаревшая программа EMMA из EMBOSS. Для начала я создал List-file со списком USA адресов, чтобы утилитой seqret загрузить все последовательности (List_file в моем случае называется m_align.txt, он доступен на kodomo в папке ~/term2/pr9, как и все остальные файлы из этого практикума). Далее выполнил команду 'seqret @m_align.txt -outseq m_align.fasta'. После этого непосредственно запустил 'muscle -align m_align.fasta -output output.fasta'. Полученный файл импортировал в Jalview, ссылка: project1.jvp

Все белки хорошо выровнялись, и все они гомологичны, у выравнивания имеется выраженная структура: в целом идентичные нуклеотиды распределены достаточно равномерно, однако имеются высококонсервативные участки, например (все координаты здесь и далее приведены по столбцам), участки 69-84, 118-134, 187-210, 240-268, 310-331, 337-353, 366-384. Имеются также менее консервативные фрагменты, например, 398-406 (конец белка). Также стоит отметить, что имеется один белок, отличающийся от всех остальных — DCUP_MAIZE, он принадлежит кукурузе Zea Mays, тогда как все остальные белки — бактериальные. DCUP_MAIZE имеет две вставки относительно остальных белков: 8-18, 25-59.