Выравнивания последовательностей.

1.Глобальное парное выравнивание гомологичных белков.

Сначала были скачаны два списка идентификаторов аннтированных записей, заканчивающихся на _ECOLI(штамм К12 кишечной палочки) и _BACSU (штамм 168 сенной палочки). С помощью команды:

infoseq 'sw:*_(_ECOLI/_BACSU)' -only -name -nohead -out ECOLI/BASCU.txt

Далее нужно было найти пары белков из двух списоков с одинаковой мнемоникой функций, поиск проводился по команде:

cut -f 1 -d '_' ECOLI.txt BACSU.txt | sort | uniq -d > common_mnems.txt

Из полученного списка в common_mnems.txt Я выбрала три белка: araB, mraZ, oppA. А далее я выполняла глобальное вырвнивание данных белков у двух организмов по команде(на примере белка OPPA):

needle sw:OPPA_ECOLI sw:OPPA_BACSU OPPA.needle -auto

Результаты см.табл.1.

Protein name ID 1 ID 2 Score % Idetity % Similarity Gaps Indels
Ribulokinase ARAB_ECOLI ARAB_BACSU 769.0 181/591(30,6) 288/591(48,7) 56/591(9,5) 14
Transcriptional regulator MraZ MRAZ_ECOLI MRAZ_BACSU 223.5 54/157(34,4) 76/157(48,4) 19/157(12,1) 4
Periplasmic oligopeptide-binding protein OPPA_ECOLI OPPA_BACSU 743.0 180/561(32,1) 277/561(49,4) 34/561(6,1) 17

🗨Таблица 1

🗨 Однако последний белок Periplasmic oligopeptide-binding protein для сенной палочки имеет название Oligopeptide-binding protein OppA

2. Локальное парное выравнивание гомологичных белков.

Была получна таблица ниже для представителей, описанных в п.1.

Команда для выравнивания:

water sw:OPPA_ECOLI sw:OPPA_BACSU OPPA.water -auto

Резульататы выравнивания см.табл.2.

Protein name ID 1 ID 2 Score % Idetity % Similarity Gaps Indels Coverage 1(ECOLI) Coverage 2(BACSU)
Ribulokinase ARAB_ECOLI ARAB_BACSU 776.0 180/564(31,9) 283/564(50,2) 44/564(7,8) 12 550/566=97,17% 534/560=95,36%
Transcriptional regulator MraZ MRAZ_ECOLI MRAZ_BACSU 223.5 51/135(37,8) 72/135(53,3) 5/135(3,7) 2 135/152=88,82% 130/143=90,91%
Periplasmic oligopeptide-binding protein OPPA_ECOLI OPPA_BACSU 754.0 174/516(33,7) 265/516(51,4) 25/516(4,8) 13 501/543=92,27% 504/545=92,48%

🗨Таблица 2

3. Глобальное и локальное выравнивание с помощью соответствующих программ needle и water для неродственных белков.

Были выбраны белки с мнемониками LEXA_FIBSS и HFLX_SACS2. Далее происходило выравнивание по командам, описанным выше. Для глобального выравнивания см. табл.3. Для локального см.табл.4.

Protein name 1 Protein name 2 ID 1 ID 2 Score % Idetity % Similarity Gaps Indels
LexA repressor GTPase HflX LEXA_FIBSS HFLX_SACS2 42.5 46/388(11,9) 87/388(22,4) 203/388(52,3) 14

🗨Таблица 3

Protein name Protein name ID 1 ID 2 Score % Idetity % Similarity Gaps Indels Coverage 1(FIBSS) Coverage 2(SACS2)
LexA repressor GTPase HflX LEXA_FIBSS HFLX_SACS2 51.5 43/178(24,2) 67/178(37,6) 22/178(12,4) 7 162/217=74,65% 170/356=47,75%

🗨Таблица 4

Таким образом, в резульате выравнивания было обнаружено множество инделей(особенно при глобальном выравнивании) что также можно заметить по показателю gaps, который стал значительно выше, чем при выравнивании гомологичных белков, также заметно просели показатели score. Таким образом, можно явно проследить эволюционное расхождение белков, и из этого следует, что они не являются близкородственными.

4. Для подчёта количества идентификаторов имеющих мнемонику ARAB_* был использован конвейер команд ниже, в резульате вышо 75.

infoseq 'sw:arab_*' -nohead|wc -l

Далее для получения мнемоник была применена команда:

infoseq 'sw:arab_*' -only -name -nohead|less

Таким образом, для множественного выравнивания были выбраны белки с мнемониками: ARAB_SALSV,ARAB_MYCSM,ARAB_HALH5,ARAB_GEOSE,ARAB_PECCP.

Для множественного выравнивания я использовала на kodomo программу muscle. Сначала был создан txt файл с мнемониками, и сначала я взяла два дополнительных белка - ARAB_ECOLI, ARAB_BACSU. (Дальнейшие множественные выравнивая происходили с оставшимися парами белков из табл.1). В резульате были получены файлы:

Мнемоники первого выравнивания.

Мнемоники второго выравнивания.

Мнемоники третьего выравнивания.

Потом были созданы файлы в fasta-формате, и запущены в muscle(на примере первого выравнивания):

seqret @ multalimn1.txt multalimn1.fasta

muscle -in multalimn1.fasta -out arabarab_multalimn1.fasta

В Jalview были выгружены выравнивания, колонки раскрашено по проценту идентичности.

Множественное выравнивание белков ARAB_SALSV, ARAB_MYCSM, ARAB_HALH5, ARAB_GEOSE, ARAB_PECCP, ARAB_ECOLI, ARAB_BACSU.

Множественное выравнивание белков ARAB_SALSV, ARAB_MYCSM, ARAB_HALH5, ARAB_GEOSE, ARAB_PECCP, MRAZ_ECOLI, MRAZ_BACSU.

Множественное выравнивание белков ARAB_SALSV, ARAB_MYCSM, ARAB_HALH5, ARAB_GEOSE, ARAB_PECCP, OPPA_ECOLI, OPPA_BACSU.

Полное имя белка ARAB: Ribulokinase.

Результаты выравнивания: конечно же белки с одинаковыми мнемониками имеют ,бОльшее эволюционнное сходство, поэтому первое выравнивание(где все ARAB) самое удачное(в нём мало гэпов и много участков консервативности, что прослеживается с помощью окраски по проценту идентичности). Наиболее консервативные участки в столбцах: 11-40, 65-71, 94-140, 148-171, 211-240, 307-314, 326-358, 413-420, 451-455, 508-519. Два остальных выравнивания(ARAB/MRAZ и ARAB/OPPA) явно указывают на малое родство белков(низкая консервативность и много инделей). Некоторые консервативные учатки для выравнивания 2: 14, 21, 66, 111, 302, 357. Для выравнивания 3: 32,117, 122, 150, 152, 188, 279-280, 293, 336, 366, 484, 523, 627. Поэтому гомологичными, я считаю, тут являются только белки из первого выравнивания.