Практикум 11. Выравнивание последовательностей

1. Глобальное парное выравнивание гомологичных белков

При помощи команды infoseq из базы данных Uniprot были скачаны ID всех записей Swiss - Prot, чей идентификатор заканчивается на _ECOLI и _BACSU, то есть были получены данные о кишечной палочке и сенной палочке. Затем были определены пары белков, которые имеют одинаковую мнемонику (команда cut -f 1 -d '_' ecoli.txt bacsu.txt | sort | uniq -d > common_mnems.txt).

Для дальнейшей работы были выбраны белки с мнемоникой FADH, HIS1 и THIM. Результаты представлены в таблице 1.

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков.

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
2,4-dienoyl-coenzyme A reductase [NADPH](выбрано название для E.coli) FADH_ECOLI FADH_BACSU 32.0 8.5 14.3 468 13
ATP phosphoribosyltransferase HIS1_ECOLI HIS1_BACSU 239.0 22.2 35.9 118 7
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 429.5 36.1 53.1 20 6

Замечание: в случае FADH было использовано protein name для кишечной палочки. У сенной палочки другое рекомендованное полное имя (2,4-dienoyl-CoA reductase [(2E)-enoyl-CoA-producing]), которое, впрочем, говорит о том же белке.

2. Локальное парное выравнивание гомологичных белков.

Далее при помощи программы water и её опции -auto были вновь выровнены те же пары белков. Результаты представлены в таблице 2.

Таблица 2. Характеристики локального парного выравнивания трёх пар белков.

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
2,4-dienoyl-coenzyme A reductase [NADPH](выбрано название для E.coli) FADH_ECOLI FADH_BACSU 47.5 19.8 36.0 50 7 25.9 66.9
ATP phosphoribosyltransferase HIS1_ECOLI HIS1_BACSU 245.0 29.5 47.7 44 6 90.6 98.1
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 431.5 39.8 56.8 6 5 96.6 95.2

Замечание: полные длины последовательностей белков fadh_ecoli:672, fadh_bacsu:254, his1_ecoli:299, his1_bacsu:213, thim_ecoli:262, thim_bacsu:272 в аминокислотных остатках.

3. Результат применения программ выравнивания к неродственным белкам

Было также проведено выравнивание негомологичных белков кишечной палочки и сенной палочки. Результаты выравнивания и изучаемые белки можно найти в таблицах 3 и 4.

Таблица 3. Характеристики глобального парного выравнивания негомологичных белков.

Protein Name 1 Protein Name 2 ID 1 ID 2 Score % Identity % Similarity Gaps Indels
L-seryl-tRNA(Sec) selenium transferase Transcriptional activator protein med SELA_ECOLI MED_BACSU 25.5 5.8 11.3 496 14

Таблица 4. Характеристики локального парного выравнивания негомологичных белков.

Protein Name 1 Protein Name 2 ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
L-seryl-tRNA(Sec) selenium transferase Transcriptional activator protein med SELA_ECOLI MED_BACSU 44.0 22.2 38.1 29 7 25.7 32.8

Замечание: полные длины последовательностей белков в AA: sela_ecoli: 463, med_bacsu:317.

Комментарии:

Как видно из таблиц 3 и 4, исследуемые белки действительно негомологичные, поскольку проценты идентичности и схлодства очень низкие как в глобальном, так и в локальном выравнивании (процент идентичности при глобальном выравнивании <20-25%). Относительно высоко также число гэпов и инделов. Однако можно заметить, что локальное выравнивание показало большие проценты идентичности и схожести, потому что проводилось на меньшем участке белковой последовательности.

4. Множественное выравнивание белков и импорт в Jalview

Была выбрана мнемоника THIM_* (4-methyl-5-beta-hydroxyethylthiazole kinase) из 1 пункта, помимо THIM_ECOLI и THIM_BACSU взяли THIM_RAT, THIM_MOOTA, THIM_HAEI8, THIM_STAAR, THIM_BACAA, всего нашлось 280 белковых последовательностей с такой мнемоникой.

Как происходило выравнивание:

Ссылка на проект в Jalview: для скачивания

Комментарии:

В целом, белки выровнялись вполне успешно, более консервативные участки (например, 23 - 53 АА) чередуются с менее консервативными (54 - 60 АА), где совпадений очень мало, много гэпов. Стоит также отметить, что в белке THIM_RAT практически нет гэпов, и он наиболее негомологичен всем остальным белкам.

5. Выравнивание своего белка с его гомологом

В качестве гомолога для белка PRODH_THET2 (Proline dehydrogenase ) из практикума 8 был выбран белок PRODH_DEIRA (Proline dehydrogenase) организма Deinococcus radiodurans. Результаты можно увидеть в таблице 5.

Таблица 5. Глобальное и локальное выравнивание белков пролин - дегидрогеназы.

Command ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
needle PRODH_THET2 PRODH_DEIRA 667.5 46.5 62.4 11 6 - -
water PRODH_THET2 PRODH_DEIRA 669.5 46.8 62.8 10 5 99.3 99.7

Замечание: полные длины последовательностей для белков: PRODH_THET2:307, PRODH_DEIRA:310.

Комментарии:

Выравнивание вполне говорит о гомологии, потому что довольно велик процент идентичности как при глобальном, так и при локальном выравнивании (больше 20-25%), а также число гэпов не очень велико.

6. Параметры программ needle и water

Если запустить программы needle и water без опции -auto, то запрашиваются два параметра: Gap opening penalty (по умолчанию 10.0) и Extend penalty (по умолчанию 0.5). Gap opening penalty - это штраф за открытие гэпа, единицы, которые вычетаются из веса последовательности при открытии каждого нового гэпа. Gap extension penalty - штраф за удлинение гэпа, количество единиц, которое отнимается у веса последовательности за каждый новый гэп в индели. В таблицах 6 и 7 представлены результаты работы программы при разных значениях указанных параметров. Работа происходила с THIM_ECOLI и THIM_BASCU.

Таблица 6. Изменение работы программы needle в зависимости от параметров.

Protein Name ID 1 ID 2 Gap opening penalty Extend penalty Score % Identity % Similarity Gaps Indels
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 5.0 0.1 472.2 37.1 51.0 54 19
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 5.0 1.0 456.0 37.5 53.6 26 12
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 10.0 0.5 429.5 36.1 53.1 20 6
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 15.0 0.1 409.9 36.1 53.1 20 7
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 15.0 1.0 409.0 36.1 53.1 20 6

Таблица 7. Изменение работы программы water в зависимости от параметров.

Protein Name ID 1 ID 2 Gap opening penalty Extend penalty Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 5.0 0.1 473.2 38.3 52.6 54 16 99.2 96.0
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 5.0 1.0 458.0 39.8 56.7 10 8 97.0 95.2
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 10.0 0.5 431.5 39.8 56.8 6 5 96.6 95.2
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 15.0 0.1 413.9 37.6 56.2 4 3 97.3 94.9
4-methyl-5-beta-hydroxyethylthiazole kinase THIM_ECOLI THIM_BACSU 15.0 1.0 413.0 37.6 56.2 4 3 97.3 94.9

Комментарии:

Как можно заметить, результаты меняются не так сильно вследствие изменения параметров программ needle и water. Изменяется вес выравнивания: при уменьшении параметров он увеличивается, при увеличении - уменьшается.