Практикум 9. Выравнивание последовательностей
2. Глобальное парное выравнивание гомологичных белков
Для этого задания отобрал следующие пары белков: DCUP_ECOLI и DCUP_BACSU — декарбоксилаза уропорфириногена; SYV_ECOLI и SYV_BACSU — валил-тРНК синтетаза; PDEH_ECOLI и PDEH_BACSU — фосфодиэстераза циклического диГМФ. Последовательности в формате .fasta были скачаны при помощи утилиты seqret в EMBOSS: seqret sw:protein_id -outseq fasta::protein_id.fasta. Для подсчета числа инделей использовался скрипт из 1 задания.
| Protein Name | ID 1 | ID 2 | Score | Identity | Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| Декарбоксилаза уропорфириногена | DCUP_ECOLI | DCUP_BACSU | 629.5 | 38.9% | 56.2% | 23 | 9 |
| Валил-тРНК синтетаза | SYV_ECOLI | SYV_BACSU | 2060.5 | 42.3% | 61.1% | 107 | 19 |
| Фосфодиэстераза циклического диГМФ | PDEH_ECOLI | PDEH_BACSU | 70 | 12.9% | 20.0% | 268 | 15 |
3. Локальное парное выравнивание гомологичных белков
Для подсчета Coverage нужно воспользоваться формулой: Coverage = (Xs - Xe + 1)/L * 100%, где Xs и Xe — это соответственно координаты начала и координаты конца последовательности (вычитанием координаты начала из координаты конца мы получим длину части последовательности, которая попала в выравнивание), L — длина последовательности.
| Protein Name | ID 1 | ID 2 | Score | Identity | Similarity | Gaps | Indels | Coverage1 | Coverage2 |
|---|---|---|---|---|---|---|---|---|---|
| Декарбоксилаза уропорфириногена | DCUP_ECOLI | DCUP_BACSU | 632.5 | 39.8% | 57.7% | 15 | 6 | 98.31% | 96.60% |
| Валил-тРНК синтетаза | SYV_ECOLI | SYV_BACSU | 2063 | 42.8% | 61.7% | 96 | 16 | 99.37% | 98.52% |
| Фосфодиэстераза циклического диГМФ | PDEH_ECOLI | PDEH_BACSU | 82.5 | 25.8% | 39.6% | 38 | 11 | 81.57% | 45.97% |
4. Комментарии к выравниваниям
Для определения, того, являются ли белки гомологичными, стоит взглянуть на метрику identity, как правило, она является достаточно надежным ориентиром для быстрого ответа. Если процент идентичности (identity) составляет более 20-25% на достаточно длинном интервале, то можно достаточно уверенно говорить о том, что белки по крайне мере содержат гомологичные участки. Similarity, все-таки в меньшей степени, но тоже информативна. Высокое сходство (similarity) при достаточно низком значении идентичности (identity), в случае, когда identity ниже порогового 20%, все еще может означать высокую вероятность гомологии. Если говорить о белках, рассматриваемых в этой работе, то DCUP_ECOLI и DCUP_BACSU, SYV_ECOLI и SYV_BACSU совершенно точно гомологичны по всей длине (следствием этого является также и схожесть результатов глобального и локального выравниваний, такая картина наблюдается, когда белки не имеют длинных несовпадающих участков). Ситуация с белками PDEH_ECOLI и PDEH_BACSU иная, данные белки не гомологичны по всей длине, на это указывают низкие значения метрик identity и similarity, а также разница в их длине практически в 2 раза. Результаты локального выравнивания: identity 25.8% и similarity 39.6% при длине выравнивания в 217 пн позволяют предположить, что с высокой долей вероятности белки обладают гомологичными участками.
5. Результат применения программ выравнивания к неродственным белкам
Для этого задания выбрал белки RL23_ECOLI и FOLB_BACSU.
| ID 1 | ID 2 | Score | Identity | Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|
| RL23_ECOLI | FOLB_BACSU | 18 | 17.7% | 23.4% | 62 | 7 |
| ID 1 | ID 2 | Score | Identity | Similarity | Gaps | Indels | Coverage1 | Coverage2 |
|---|---|---|---|---|---|---|---|---|
| RL23_ECOLI | FOLB_BACSU | 27.5 | 26% | 40% | 7 | 2 | 46% | 39.17% |
Очень низкие значения метрик для глобального выравнивания не позволяют предположить наличие гомологии. Результаты локального выравнивания кажутся многообещающими, однако при длине выравнивания в 50 ак identity 26% не является показателем гомологии, идентичность 13 аминокислот в данном случае является случайностью.
6. Множественное выравнивание белков и импорт в Jalview
Для этого задания я выбрал белки с мнемоникой DCUP, рекомендуемое полное имя белка для E.coli — Uroporphyrinogen decarboxylase (рус. декарбоксилаза уропорфириногена). Поиск по базе данных SwissProt выдал 514 записей с такой же мнемоникой. Выбрал следующие белки: DCUP_MAIZE, DCUP_YERPE, DCUP_SYNPW, DCUP_STAAS, DCUP_SALTI.
Для осуществления множественного выравнивания я выбрал программу MUSCLE, которая значительно удобнее и эффективнее, чем устаревшая программа EMMA из EMBOSS. Для начала я создал List-file со списком USA адресов, чтобы утилитой seqret загрузить все последовательности (List_file в моем случае называется m_align.txt, он доступен на kodomo в папке ~/term2/pr9, как и все остальные файлы из этого практикума). Далее выполнил команду 'seqret @m_align.txt -outseq m_align.fasta'. После этого непосредственно запустил 'muscle -align m_align.fasta -output output.fasta'. Полученный файл импортировал в Jalview, ссылка: project1.jvp
Все белки хорошо выровнялись, и все они гомологичны, у выравнивания имеется выраженная структура: в целом идентичные нуклеотиды распределены достаточно равномерно, однако имеются высококонсервативные участки, например (все координаты здесь и далее приведены по столбцам), участки 69-84, 118-134, 187-210, 240-268, 310-331, 337-353, 366-384. Имеются также менее консервативные фрагменты, например, 398-406 (конец белка). Также стоит отметить, что имеется один белок, отличающийся от всех остальных — DCUP_MAIZE, он принадлежит кукурузе Zea Mays, тогда как все остальные белки — бактериальные. DCUP_MAIZE имеет две вставки относительно остальных белков: 8-18, 25-59.