1.Глобальное парное выравнивание гомологичных белков.
Сначала были скачаны два списка идентификаторов аннтированных записей, заканчивающихся на _ECOLI(штамм К12 кишечной палочки) и _BACSU (штамм 168 сенной палочки). С помощью команды:
infoseq 'sw:*_(_ECOLI/_BACSU)' -only -name -nohead -out ECOLI/BASCU.txt
Далее нужно было найти пары белков из двух списоков с одинаковой мнемоникой функций, поиск проводился по команде:
cut -f 1 -d '_' ECOLI.txt BACSU.txt | sort | uniq -d > common_mnems.txt
Из полученного списка в common_mnems.txt Я выбрала три белка: araB, mraZ, oppA. А далее я выполняла глобальное вырвнивание данных белков у двух организмов по команде(на примере белка OPPA):
needle sw:OPPA_ECOLI sw:OPPA_BACSU OPPA.needle -auto
Результаты см.табл.1.
Protein name | ID 1 | ID 2 | Score | % Idetity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Ribulokinase | ARAB_ECOLI | ARAB_BACSU | 769.0 | 181/591(30,6) | 288/591(48,7) | 56/591(9,5) | 14 |
Transcriptional regulator MraZ | MRAZ_ECOLI | MRAZ_BACSU | 223.5 | 54/157(34,4) | 76/157(48,4) | 19/157(12,1) | 4 |
Periplasmic oligopeptide-binding protein | OPPA_ECOLI | OPPA_BACSU | 743.0 | 180/561(32,1) | 277/561(49,4) | 34/561(6,1) | 17 |
🗨Таблица 1
🗨 Однако последний белок Periplasmic oligopeptide-binding protein для сенной палочки имеет название Oligopeptide-binding protein OppA
2. Локальное парное выравнивание гомологичных белков.
Была получна таблица ниже для представителей, описанных в п.1.
Команда для выравнивания:
water sw:OPPA_ECOLI sw:OPPA_BACSU OPPA.water -auto
Резульататы выравнивания см.табл.2.
Protein name | ID 1 | ID 2 | Score | % Idetity | % Similarity | Gaps | Indels | Coverage 1(ECOLI) | Coverage 2(BACSU) |
---|---|---|---|---|---|---|---|---|---|
Ribulokinase | ARAB_ECOLI | ARAB_BACSU | 776.0 | 180/564(31,9) | 283/564(50,2) | 44/564(7,8) | 12 | 550/566=97,17% | 534/560=95,36% |
Transcriptional regulator MraZ | MRAZ_ECOLI | MRAZ_BACSU | 223.5 | 51/135(37,8) | 72/135(53,3) | 5/135(3,7) | 2 | 135/152=88,82% | 130/143=90,91% |
Periplasmic oligopeptide-binding protein | OPPA_ECOLI | OPPA_BACSU | 754.0 | 174/516(33,7) | 265/516(51,4) | 25/516(4,8) | 13 | 501/543=92,27% | 504/545=92,48% |
🗨Таблица 2
3. Глобальное и локальное выравнивание с помощью соответствующих программ needle и water для неродственных белков.
Были выбраны белки с мнемониками LEXA_FIBSS и HFLX_SACS2. Далее происходило выравнивание по командам, описанным выше. Для глобального выравнивания см. табл.3. Для локального см.табл.4.
Protein name 1 | Protein name 2 | ID 1 | ID 2 | Score | % Idetity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|---|
LexA repressor | GTPase HflX | LEXA_FIBSS | HFLX_SACS2 | 42.5 | 46/388(11,9) | 87/388(22,4) | 203/388(52,3) | 14 |
🗨Таблица 3
Protein name | Protein name | ID 1 | ID 2 | Score | % Idetity | % Similarity | Gaps | Indels | Coverage 1(FIBSS) | Coverage 2(SACS2) |
---|---|---|---|---|---|---|---|---|---|---|
LexA repressor | GTPase HflX | LEXA_FIBSS | HFLX_SACS2 | 51.5 | 43/178(24,2) | 67/178(37,6) | 22/178(12,4) | 7 | 162/217=74,65% | 170/356=47,75% |
🗨Таблица 4
Таким образом, в резульате выравнивания было обнаружено множество инделей(особенно при глобальном выравнивании) что также можно заметить по показателю gaps, который стал значительно выше, чем при выравнивании гомологичных белков, также заметно просели показатели score. Таким образом, можно явно проследить эволюционное расхождение белков, и из этого следует, что они не являются близкородственными.
4. Для подчёта количества идентификаторов имеющих мнемонику ARAB_* был использован конвейер команд ниже, в резульате вышо 75.
infoseq 'sw:arab_*' -nohead|wc -l
Далее для получения мнемоник была применена команда:
infoseq 'sw:arab_*' -only -name -nohead|less
Таким образом, для множественного выравнивания были выбраны белки с мнемониками: ARAB_SALSV,ARAB_MYCSM,ARAB_HALH5,ARAB_GEOSE,ARAB_PECCP.
Для множественного выравнивания я использовала на kodomo программу muscle. Сначала был создан txt файл с мнемониками, и сначала я взяла два дополнительных белка - ARAB_ECOLI, ARAB_BACSU. (Дальнейшие множественные выравнивая происходили с оставшимися парами белков из табл.1). В резульате были получены файлы:
Мнемоники первого выравнивания.
Мнемоники второго выравнивания.
Мнемоники третьего выравнивания.
Потом были созданы файлы в fasta-формате, и запущены в muscle(на примере первого выравнивания):
seqret @ multalimn1.txt multalimn1.fasta
muscle -in multalimn1.fasta -out arabarab_multalimn1.fasta
В Jalview были выгружены выравнивания, колонки раскрашено по проценту идентичности.
Полное имя белка ARAB: Ribulokinase.
Результаты выравнивания: конечно же белки с одинаковыми мнемониками имеют ,бОльшее эволюционнное сходство, поэтому первое выравнивание(где все ARAB) самое удачное(в нём мало гэпов и много участков консервативности, что прослеживается с помощью окраски по проценту идентичности). Наиболее консервативные участки в столбцах: 11-40, 65-71, 94-140, 148-171, 211-240, 307-314, 326-358, 413-420, 451-455, 508-519. Два остальных выравнивания(ARAB/MRAZ и ARAB/OPPA) явно указывают на малое родство белков(низкая консервативность и много инделей). Некоторые консервативные учатки для выравнивания 2: 14, 21, 66, 111, 302, 357. Для выравнивания 3: 32,117, 122, 150, 152, 188, 279-280, 293, 336, 366, 484, 523, 627. Поэтому гомологичными, я считаю, тут являются только белки из первого выравнивания.