1. Глобальное парное выравнивание гомологичных белков
При помощи команды infoseq
из базы данных Uniprot были скачаны ID всех записей Swiss - Prot, чей идентификатор заканчивается на _ECOLI и _BACSU,
то есть были получены данные о кишечной палочке и сенной палочке. Затем были определены пары белков, которые имеют одинаковую мнемонику (команда cut -f 1 -d '_' ecoli.txt bacsu.txt | sort | uniq -d > common_mnems.txt
).
Для дальнейшей работы были выбраны белки с мнемоникой FADH, HIS1 и THIM. Результаты представлены в таблице 1.
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков.
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
2,4-dienoyl-coenzyme A reductase [NADPH](выбрано название для E.coli) | FADH_ECOLI | FADH_BACSU | 32.0 | 8.5 | 14.3 | 468 | 13 |
ATP phosphoribosyltransferase | HIS1_ECOLI | HIS1_BACSU | 239.0 | 22.2 | 35.9 | 118 | 7 |
4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 429.5 | 36.1 | 53.1 | 20 | 6 |
Замечание: в случае FADH было использовано protein name для кишечной палочки. У сенной палочки другое рекомендованное полное имя (2,4-dienoyl-CoA reductase [(2E)-enoyl-CoA-producing]), которое, впрочем, говорит о том же белке.
2. Локальное парное выравнивание гомологичных белков.
Далее при помощи программы water
и её опции -auto
были вновь выровнены те же пары белков. Результаты представлены в таблице 2.
Таблица 2. Характеристики локального парного выравнивания трёх пар белков.
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
2,4-dienoyl-coenzyme A reductase [NADPH](выбрано название для E.coli) | FADH_ECOLI | FADH_BACSU | 47.5 | 19.8 | 36.0 | 50 | 7 | 25.9 | 66.9 |
ATP phosphoribosyltransferase | HIS1_ECOLI | HIS1_BACSU | 245.0 | 29.5 | 47.7 | 44 | 6 | 90.6 | 98.1 |
4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 431.5 | 39.8 | 56.8 | 6 | 5 | 96.6 | 95.2 |
Замечание: полные длины последовательностей белков fadh_ecoli:672, fadh_bacsu:254, his1_ecoli:299, his1_bacsu:213, thim_ecoli:262, thim_bacsu:272 в аминокислотных остатках.
3. Результат применения программ выравнивания к неродственным белкам
Было также проведено выравнивание негомологичных белков кишечной палочки и сенной палочки. Результаты выравнивания и изучаемые белки можно найти в таблицах 3 и 4.
Таблица 3. Характеристики глобального парного выравнивания негомологичных белков.
Protein Name 1 | Protein Name 2 | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|---|
L-seryl-tRNA(Sec) selenium transferase | Transcriptional activator protein med | SELA_ECOLI | MED_BACSU | 25.5 | 5.8 | 11.3 | 496 | 14 |
Таблица 4. Характеристики локального парного выравнивания негомологичных белков.
Protein Name 1 | Protein Name 2 | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|---|
L-seryl-tRNA(Sec) selenium transferase | Transcriptional activator protein med | SELA_ECOLI | MED_BACSU | 44.0 | 22.2 | 38.1 | 29 | 7 | 25.7 | 32.8 |
Замечание: полные длины последовательностей белков в AA: sela_ecoli: 463, med_bacsu:317.
Комментарии:
Как видно из таблиц 3 и 4, исследуемые белки действительно негомологичные, поскольку проценты идентичности и схлодства очень низкие как в глобальном, так и в локальном выравнивании (процент идентичности при глобальном выравнивании <20-25%). Относительно высоко также число гэпов и инделов. Однако можно заметить, что локальное выравнивание показало большие проценты идентичности и схожести, потому что проводилось на меньшем участке белковой последовательности.
4. Множественное выравнивание белков и импорт в Jalview
Была выбрана мнемоника THIM_* (4-methyl-5-beta-hydroxyethylthiazole kinase) из 1 пункта, помимо THIM_ECOLI и THIM_BACSU взяли THIM_RAT, THIM_MOOTA, THIM_HAEI8, THIM_STAAR, THIM_BACAA, всего нашлось 280 белковых последовательностей с такой мнемоникой.
Как происходило выравнивание:
Ссылка на проект в Jalview: для скачивания
Комментарии:
В целом, белки выровнялись вполне успешно, более консервативные участки (например, 23 - 53 АА) чередуются с менее консервативными (54 - 60 АА), где совпадений очень мало, много гэпов. Стоит также отметить, что в белке THIM_RAT практически нет гэпов, и он наиболее негомологичен всем остальным белкам.
5. Выравнивание своего белка с его гомологом
В качестве гомолога для белка PRODH_THET2 (Proline dehydrogenase ) из практикума 8 был выбран белок PRODH_DEIRA (Proline dehydrogenase) организма Deinococcus radiodurans. Результаты можно увидеть в таблице 5.
Таблица 5. Глобальное и локальное выравнивание белков пролин - дегидрогеназы.
Command | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
needle | PRODH_THET2 | PRODH_DEIRA | 667.5 | 46.5 | 62.4 | 11 | 6 | - | - |
water | PRODH_THET2 | PRODH_DEIRA | 669.5 | 46.8 | 62.8 | 10 | 5 | 99.3 | 99.7 |
Замечание: полные длины последовательностей для белков: PRODH_THET2:307, PRODH_DEIRA:310.
Комментарии:
Выравнивание вполне говорит о гомологии, потому что довольно велик процент идентичности как при глобальном, так и при локальном выравнивании (больше 20-25%), а также число гэпов не очень велико.
6. Параметры программ needle и water
Если запустить программыneedle
и water
без опции -auto
, то запрашиваются два параметра: Gap opening penalty (по умолчанию 10.0) и Extend penalty (по умолчанию 0.5).
Gap opening penalty - это штраф за открытие гэпа, единицы, которые вычетаются из веса последовательности при открытии каждого нового гэпа. Gap extension penalty - штраф за удлинение гэпа, количество единиц, которое отнимается у веса последовательности за каждый новый гэп в индели.
В таблицах 6 и 7 представлены результаты работы программы при разных значениях указанных параметров. Работа происходила с THIM_ECOLI и THIM_BASCU.
Таблица 6. Изменение работы программы needle в зависимости от параметров.
Protein Name | ID 1 | ID 2 | Gap opening penalty | Extend penalty | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|---|---|
4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 5.0 | 0.1 | 472.2 | 37.1 | 51.0 | 54 | 19 |
4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 5.0 | 1.0 | 456.0 | 37.5 | 53.6 | 26 | 12 |
4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 10.0 | 0.5 | 429.5 | 36.1 | 53.1 | 20 | 6 | 4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 15.0 | 0.1 | 409.9 | 36.1 | 53.1 | 20 | 7 | 4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 15.0 | 1.0 | 409.0 | 36.1 | 53.1 | 20 | 6 |
Таблица 7. Изменение работы программы water в зависимости от параметров.
Protein Name | ID 1 | ID 2 | Gap opening penalty | Extend penalty | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|---|---|
4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 5.0 | 0.1 | 473.2 | 38.3 | 52.6 | 54 | 16 | 99.2 | 96.0 |
4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 5.0 | 1.0 | 458.0 | 39.8 | 56.7 | 10 | 8 | 97.0 | 95.2 |
4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 10.0 | 0.5 | 431.5 | 39.8 | 56.8 | 6 | 5 | 96.6 | 95.2 |
4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 15.0 | 0.1 | 413.9 | 37.6 | 56.2 | 4 | 3 | 97.3 | 94.9 |
4-methyl-5-beta-hydroxyethylthiazole kinase | THIM_ECOLI | THIM_BACSU | 15.0 | 1.0 | 413.0 | 37.6 | 56.2 | 4 | 3 | 97.3 | 94.9 |
Комментарии:
Как можно заметить, результаты меняются не так сильно вследствие изменения параметров программ needle и water. Изменяется вес выравнивания: при уменьшении параметров он увеличивается, при увеличении - уменьшается.