1. Глобальное парное выравнивание гомологичных белков.

Первым пунктом в этом задании является нахождение белков с одинаковой мнемоникой функции. Я не сразу заметил подсказки, и поэтому воспользовался не VLOOKUP/ВПР, а другим путём решения.
Это не является основной темой практикума, поэтому подробнее про это можно прочитать ниже
1)Скачиваю все результаты поиска organism:ecoli AND reviewed:yes в формате Excel.
2)Аналогично делаю и с _BACSU.
3)С поощью гугл таблиц копирую столбцы Entry name и делю текст на слобцы, выбирая в качестве разделителя: _
4)Ищу элементы из одного столбца с помощью =ПОИСКПОЗ и =ЕСЛИОШИБКА
Ссылка на таблицу


Я выбрал 3 белка и произвёл парное выравнивание с помощью следующих команд:
1) needle sw:6PGD_ECOLI sw:6PGD_BACSU 6pgd.needle -auto
2) needle sw:KAD_ECOLI sw:KAD_BACSU kad.needle -auto
3) needle sw:MAA_ECOLI sw:MAA_BACSU maa.needle -auto
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
6-phosphogluconate dehydrogenase,
decarboxylating
6PGD_ECOLI 6PGD_BACSU 1718.0 70.0% 83.4% 3 3
Adenylate kinase KAD_ECOLI KAD_BACSU 527.5 46.4% 65.8% 13 3
Maltose O-acetyltransferase MAA_ECOLI MAA_BACSU 632.0 64.3% 78.9% 3 3
Таблица 1. Результат глобального выравнивания
Замечание к таблице:
MAA_BACSU у Bacillus subtilis имеет protein name: Probable maltose O-acetyltransferase
Ссылка на папку с результатами всего практикума

2. Локальное парное выравнивание гомологичных белков

Проделал аналогичные действия с командой water.
Coverage расчитывался делением длины попавшей в выравнивание на общую длину белка.
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
6-phosphogluconate dehydrogenase, decarboxylating 6PGD_ECOLI 6PGD_BACSU 1719.0 70.1% 83.6% 3 3 99.8% 99.8%
Adenylate kinase KAD_ECOLI KAD_BACSU 527.5 47.2% 67.0% 9 2 100% 98,1%
Maltose O-acetyltransferase MAA_ECOLI MAA_BACSU 632.0 64.7% 79.3% 2 2 100% 99,4%
Таблица 2. Результат локального выравнивания
Сравнивая результаты команд needle и water, можно сделать вывод, что они работают похожим образом и
выдают приблизительно одинаковые результаты в полях Identity и Similarity. Но число гэпов у water ниже, так как команда может выравнивать лишь часть белка.
Ссылка на папку с результатами всего практикума

3. Применение программ выравнивания к неродственным белкам

При помощи needle и water сравню белки ACSA_ECOLI и AROD_BACSU.
Результат в таблице ниже:
Команда
(тип выравнивания)
ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
needle (глобальное) ACSA_ECOLI AROD_BACSU 36.5 7.4% 12.2% 557 17 - -
water (локальное) ACSA_ECOLI AROD_BACSU 48.0 17.3% 30.2% 101 10 27,0% 91.4%
Таблица 3. Результат выравнивания негомологичных белков
Результат сильно отличается от сравнения с гомолочными белками:
Гораздо ниже процент сходства. Число гэпов очень большое (даже в локальном выранивании)
По результату видно, что это белки с высокой веротностью не являются гомологами.
Ссылка на папку с результатами всего практикума

4. Множественное выравнивание белков и импорт в Jalview

При запросе "adenylate kinase" было найдено 970 записей Swiss-Prot. Я выбрал 5 из них (помимо ECOLI и BACSU) и создал файл kad.txt со следующим содержанием:
     sw:KAD_ECOLI
     sw:KAD_BACSU
     sw:KAD_SPOGL
     sw:KAD_MYCTU
     sw:KAD_SHIFL
     sw:KAD_SHIDS
     sw:KAD_LISIN
Далее выполнил 2 команды:
 seqret @kad.txt kad.fasta
 muscle -in kad.fasta -out kad_alignment.fasta
Я выполнил задание в Jalview: файл с проектом Jalview
Ниже представлены участки, являющиеся консервативными (в особенности 2-17,79-89):

Все белки с большой вероятностью являются гомологичными.
Рисунок 3. Дерево построенное на основании выравнивания

Дерево на рисунке 1 похоже на правильное. Так как SHIFL(Shigella flexneri), SHIDS (Shigella dysenteriae
serotype 1
), ECOLI (Escherichia coli) являются представителями семейства Enterobacterales. Другие орга-
низмы за исключением MYCTU принадлежат к порядоку Bacillales. А MYCTU (Mycobacterium tuberculosis) является актиномицетом (Actinomycetales). Сравнив систематическое положение организмов и построенное дерово, можно сделать вывод, что дерево соответствует действительности.
Ссылка на папку с результатами всего практикума