1. Глобальное парное выравнивание гомологичных белков
Для проведения выравнивания было предварительно выяснено, какие мнемоники белков повторяются у Escherichia coli и Bacillus subtilis. Для этого через Uniprot (расширенный поиск) были найдены, а затем скачаны ID и RecName всех белков этих организмов. Затем в Excel была применена функция ВПР, и в итоге остались лишь те идентификаторы, которые повторяются (с помощью метода разделения столбцов были получены списки мнемоник). Результат можно увидеть здесь.
Для исследования были выбраны белки со следующими мнемониками: ALF, 6PGD, RRF. Выравнивание проводилось с помощью программы needle (опция -auto). Результаты выравнивания представлены в таблице 1.
Таблица 1. Глобальное парное выравнивание для гомологичных белков у Escherichia coli и Bacillus subtilis.
Protein Name |
ID 1 |
ID 2 |
Score |
% Identity |
% Similarity |
Gaps |
Indels |
Fructose-bisphosphate aldolase class 2[1] |
ALF_ECOLI |
ALF_BACSU |
279.0 |
25.3% |
41.0% |
98 |
16 |
6-phosphogluconate dehydrogenase, decarboxylating[2] |
6PGD_ECOLI |
6PGD_BACSU |
1718.0 |
70.0% |
83.4% |
3 |
3 |
Ribosome-recycling factor |
RRF_ECOLI |
RRF_BACSU |
469.0 |
48.6% |
71.9% |
0 |
0 |
2. Локальное парное выравнивание гомологичных белков
Для локального выравнивания применялась программа water (опция -auto). Результаты выравнивания представлены в таблице 2.
Таблица 2. Локальное парное выравнивание для гомологичных белков у Escherichia coli и Bacillus subtilis.
Protein Name |
ID 1 |
ID 2 |
Score |
% Identity |
% Similarity |
Gaps |
Indels |
Coverage 1 |
Coverage 2 |
Fructose-bisphosphate aldolase class 2[1] |
ALF_ECOLI |
ALF_BACSU |
289.0 |
27.5% |
43.2% |
78 |
13 |
88.0% |
89.1% |
6-phosphogluconate dehydrogenase, decarboxylating[2] |
6PGD_ECOLI |
6PGD_BACSU |
1719.0 |
70.1% |
83.6% |
3 |
3 |
100% |
100% |
Ribosome-recycling factor |
RRF_ECOLI |
RRF_BACSU |
470.0 |
48.9% |
72.3% |
0 |
0 |
100% |
100% |
Значения длин белков со следующими ID (в аминокислотных остатках):
- ALF_ECOLI: 359;
- ALF_BACSU: 285;
- 6PGD_ECOLI: 468;
- 6PGD_BACSU: 469;
- RRF_ECOLI: 185;
- RRF_BACSU: 185.
Разночтения в полном имени белков:
- [1] ALF_BACSU: Probable fructose-bisphosphate aldolase.
- [2] 6PGD_BACSU: 6-phosphogluconate dehydrogenase, NADP(+)-dependent, decarboxylating.
3. Результат применения программ выравнивания к неродственным белкам
Для выполнения этого задания были выбраны белки с разной мнемоникой: END8_ECOLI (Endonuclease 8) и PURL_BACSU (Phosphoribosylformylglycinamidine synthase subunit PurL). Было проведено выравнивание для того, чтобы выяснить, есть ли схожесть структуры. Результаты представлены в таблице 3.
Таблица 3. Глобальное и локальное парное выравнивания для негомологичных белков у Escherichia coli и Bacillus subtilis.
Alignment |
Score |
% Identity |
% Similarity |
Gaps |
Indels |
Coverage 1 |
Coverage 2 |
Needle-align |
25 |
4.5% |
7.5% |
699 |
24 |
Water-align |
40 |
19.4% |
33.1% |
54 |
9 |
44.1% |
20.2% |
Исходя из итоговых результатов, делается вывод, что оба белка действительно негомологичны (для выявления гомологии необходимо более 25% сходства). Однако процент идентичности и схожести в локальном выравнивании выше, чем в глобальном, поскольку сравнивались совершенно разные участки аминокислотной последовательности (у E.coli - со 2 по 177 а.о, а у B. subtilis - с 507 по 656 а.о).
4. Множественное выравнивание белков и импорт в Jalview
Из первого задания была выбрана мнемоника 6PGD (6-phosphogluconate dehydrogenase, decarboxylating), для которой был запущен сеанс поиска в UniProt (в разделе Swiss-Prot). В итоге, нашлось 55 белков (включая 6PGD1_YEAST и 6PGDH_BACSU). Среди них, помимо белков E. coli и B. subtilis, были выбраны: 6PGD_HUMAN, 6PGD_SHEEP, 6PGD_SHISO, 6PGD_STAAC, 6PGD_HAEDU. Проект в Jalview: скачать, скриншот.
Множественное выравнивание для данных белков проводилось на сайте Uniprot с последующей работой в Jalview:
- После поиска белков с заданными параметрами и выбора любых пяти из списка нажать на флажок рядом с белком;
- Кликнуть на кнопку "Align", расположенную над таблицей с результатами поиска;
- Подождать некоторое время, пока программа сделает то, что должна;
- Нажать на кнопку "Download", выбрать fasta-формат в выпадающем списке и "uncompressed";
- Когда откроется в браузере страничка с fasta-форматом, кликнуть на правую кнопку мыши, затем на "сохранить как", указать "все файлы", убрать расширение txt;
- Ждать окончания загрузки;
- Загрузить fasta-файл в Jalview (сначала закрыть лишние окна): "File" > "Input alignment" > "From file" > выбрать скачанный файл:
- "Colour" > "Percentage identity" в меню для нашего выравнивания (для раскраски по проценту идентичности);
- "File" > "Save project as" > выбрать формат "jvp".
Комментарии к выравниванию: структуры исследуемых белков довольно на друг друга похожи, лишь стоит отметить, что у 6PGD_SHEEP выпадают с 1 по 12 и с 446 по 485 а.о., у последних трёх белков - с 469(470) по 485 а.о. Некоторые участки во всех белках полностью идентичны (консервативны), например: 13-16, 18-19, 34-35, 34-35, 69-70, 78-79, 100-104, 128-133, 179-182 и далее (раскрашены тёмно-сиреневым цветом). Колонки 184-189 и 440-457 консервативные, однако у первого и третьего белка произошла замена аминокислот на 441 и 443 позиции, а у предпоследнего - на 191 месте.
Интересны 23-26 колонки, где у первых трёх белков совпадает последовательность между собой, а у остальных четырёх - различается, но между собой тоже идентичны. Полностью неконсервативные участки есть (например, 37, 80 столбцы); они довольно немногочислены и обычно их всего по одному столбцу.
Выравнивание показывает возможную гомологию белков.
5. Выравнивание своего белка с его гомологом
Для данного задания был взят белок, представленный в третьем блоке по Uniprot. В качестве сравниваемого был взят белок A0A5C0XMV7_PYRFU Pyrococcus furiosus (из UniProt TrEMBL), так как ни один белок из Swiss-Prot со схожей мнемоникой не является возможным гомологом GTPазе с GPN-петлёй (процент идентичности сильно меньше 25%). Результаты представлены в таблице 4.
Таблица 4. Глобальное и локальное парное выравнивания для гомологичных белков у Pyrococcus abyssi и Pyrococcus furiosus.
Alignment |
Score |
% Identity |
% Similarity |
Gaps |
Indels |
Coverage 1 |
Coverage 2 |
Needle-align |
1084.0 |
79.4% |
90.7% |
0 |
0 |
Water-align |
1084.0 |
79.4% |
90.7% |
0 |
0 |
100% |
100% |
Значения длин белков со следующими ID (в аминокислотных остатках):
- GPN_PYRAB (GPN-loop GTPase): 248;
- A0A5C0XMV7_PYRFU (GTPase): 248.
Это свидетельствует о гомологии, так как нет ни вставок, ни делеции, и последовательности сильно схожи. Процент схожести более 25%.
6. Параметры программ needle и water
Программы needle и water запрашивают следующие параметры, будучи написанны без опции -auto:
- Первая последовательность (причём, скачанная из БД предварительно);
- Вторая последовательность;
- Штраф за открытие гэпа (10 по умолчанию);
- Штраф за удлинение гэпа (0.5 по умолчанию);
- Выходной файл (в квадратных скобках указан файл, название которого выдумала программа, добавляя туда .needle (.water); название - по второму входному файлу
Изменяя третий и четвёртый параметры, изменяется длина выравнивания (length), вес (score), % идентичности, схожести, число гэпов и инделов, например (аналогично для water):
- needle 1.txt 2.txt 0.2 0.9 eno_align.needle
- needle 1.txt 2.txt 20 8 eno_align.needle
- needle 1.txt 9.txt 20 8 eno_align.needle
По умолчанию стоят значения 10.0 (штраф за открытие гэпа) и 0.5 (штраф за удлинение гэпа). Если вставить параметры, которые меньше заданных (пример 1), то характеристики выравнивания изменяются (числа уменьшаются); больше параметров по умолчанию (примеры 2 и 3) - увеличиваются характеристики.
Программы принимают как файлы, скачанные через entret, так и через seqret: в txt, fasta, raw-форматах. Если добавить -aformat fasta к выходному файлу, то программа выдаст выравнивание в этом формате; там окажутся только названия белков и сами последовательности без характеристик.
Примечание: в файлах 1.txt, 2.txt содержится полная информация о белках eno_bacsu, eno_ecoli соответственно (скачаны через entret). В файле 9.txt (пример 3) - второй белок, скачанный через seqret.