Практикум 9. Выравнивание последовательностей

Глобальное парное выравнивание гомологичных белков

Сначала я получила списки идентификаторов Swiss-Prot с заданной мнемоникой организмов (_ECOLI - штамм К12 кишечной палочки и _BACSU - штамм 168 сенной палочки) с помощью команд:

infoseq 'sw:*_ECOLI' -only -name -nohead -out ECOLI.txt

infoseq 'sw:*_BACSU' -only -name -nohead -out BACSU.txt

Чтобы найти белки с одинаковыми мнемониками функции, я использовала следующую команду на kodomo:

cut -f 1 -d '_' ECOLI.txt BACSU.txt | sort | uniq -d > common_mnems.txt

Из полученного документа я случайным образом выбрала 3 белка со следующими мнемониками: RL21, SLP, DHPS. Чтобы определить соответствующие им полные имена белка, я использовала следующие команды на kodomo (на месте MNEM подразумеваются RL21, SLP, DHPS):

entret sw:MNEM_ecoli -filter | grep '^DE' - для штамма K12 кишечной палочки

entret sw:MNEM_bacsu -filter | grep '^DE' - для штамма 168 сенной палочки

Затем я выполнила глобальное выравнивание для каждой пары белков с одинаковыми мнемониками. Для этого я использовала следующую команду на kodomo (на месте MNEM подразумеваются RL21, SLP, DHPS):

needle sw:MNEM_ecoli sw:MNEM_bacsu MNEM.needle -auto

Полученные результаты представлены в таблице ниже:

Глобальное парное выравнивание гомологичных белков:
Protein NameID 1ID 2Score% Identity% SimilarityGapsIndels
Large ribosomal subunit protein bL21RL21_ECOLIRL21_BACSU240.045.668.011
Outer membrane protein SlpSLP_ECOLISLP_BACSU15.013.125.711610
Dihydropteroate synthaseDHPS_ECOLIDHPS_BACSU500.040.056.0338
Белок Outer membrane protein Slp для сенной палочки имеет название Pal-related lipoprotein

Локальное парное выравнивание гомологичных белков

Далее для тех же пар белков я сделала локальное выравнивание, с помощью следующей команды на kodomo (на месте MNEM подразумеваются RL21, SLP, DHPS):

water sw:MNEM_ecoli sw:MNEM_bacsu MNEM.water -auto

Полученные результаты представлены в таблице ниже:

Локальное парное выравнивание гомологичных белков:
Protein NameID 1ID 2Score% Identity% SimilarityGapsIndelsCoverage 1Coverage 2
Large ribosomal subunit protein bL21RL21_ECOLIRL21_BACSU240.045.668.011100%100%
Outer membrane protein SlpSLP_ECOLISLP_BACSU35.020.440.74126.6%43.5%
Dihydropteroate synthaseDHPS_ECOLIDHPS_BACSU515.543.261.48391.5%88.4%
Белок Outer membrane protein Slp для сенной палочки имеет название Pal-related lipoprotein

Результат применения программ выравнивания к неродственным белкам

Как и в прошлый раз, я случайным образом выбрала мнемоники: в этот раз это оказались мнемоники END3 и HOLB. Из кишечной палочки я выбрала белок с мнемоникой END3, а из сенной - HOLB. Для получения названия белков, локального и глобального выравнивания я применила аналогичные команды тем, что были в прошлых заданиях:

entret sw:END3_ecoli -filter | grep '^DE' - для получения названия белка из штамма K12 кишечной палочки

entret sw:HOLB_bacsu -filter | grep '^DE' - для получения названия белка из штамма 168 сенной палочки

needle sw:END3_ecoli sw:HOLB_bacsu diff.needle -auto - для получения глобального выравнивания двух белков

water sw:END3_ecoli sw:HOLB_bacsu diff.water -auto - для получения локального выравнивания двух белков

Результаты выравниваний представлены в таблицах ниже:

Глобальное парное выравнивание неродственных белков:
Protein NameID 1ID 2Score% Identity% SimilarityGapsIndels
Endonuclease III and DNA polymerase III subunit deltaEND3_ECOLIHOLB_BACSU23.010.216.128014
Локальное парное выравнивание неродственных белков:
Protein NameID 1ID 2Score% Identity% SimilarityGapsIndelsCoverage 1Coverage 2
Endonuclease III and DNA polymerase III subunit deltaEND3_ECOLIHOLB_BACSU36.020.633.161671.6%32.8%

Ожидамо, оба выравнивания получили очень маленький вес. Интересно заметить, что при локальном выравнивании процент идентичности возрос с 10.2 до 20.6, при этом процент покрытия первого белка составил 71.6%, в то время как второго белка только 32.8%. Поскольку даже функции этих белков рознятся, то и полученные результаты не являются удивительными.

Множественное выравнивание белков и импорт в Jalview

Для подчёта количества идентификаторов имеющих мнемонику RL21_* (полное имя RL21 - Large ribosomal subunit protein bL21) был использован конвейер команд, написанный ниже:

infoseq 'sw:rl21_*' -nohead|wc -l(выяснилось, что результатов 815)

infoseq 'sw:rl21_*' -only -name -nohead|less

Таким образом, для множественного выравнивания были выбраны белки с мнемониками: RL21_HUMAN, RL21_RABIT, RL21_MICAN, RL21_BUCAP, RL21_BACAC (помимо ранее использовавшихся RL21_ECOLI и RL21_BACSU).

Для множественного выравнивания я использовала на kodomo программу muscle. Сначала был создан txt файл с мнемониками:

Текстовый файл с мнемониками

Потом были созданы файлы в fasta-формате, и запущены в muscle при помощи следующих команд:

seqret @rl21.txt rl21.fasta

muscle -in rl21.fasta -out rl21_alignment.fasta

В Jalview был загружен конечный файл с выравниваниями, а колонки стали раскрашены по проценту идентичности.

Рисунок 1. Проект в Jalview
Ссылка на проект в Jalview

Белки выравнялись хорошо, но различия между организмами четко видны в зависимости от того является ли организм прокариотом или эукариотом, поскольку у прокариот 50S большая субъединица рибосомы, а у эукариот - 60S, что играет принципиальную роль для организма.

Параметры программ needle и water

Needle и Water запрашивают два значения: Gap opening penalty (штраф за открытие инделя) и Gap extension penalty (штраф за удлинение инделя). Два алгоритма при одних и тех же значениях данных парамтеров (10 и 0.5 соответственно исходно) при выравнивании RL21_ECOLI и RL21_BACSU получили разные сочетания гэпов и инделей. При постепенном увелечении параметра Gap extension penalty, для программы needle её выравнивание начинает совпадать с выравниванием программы water со значениями по умолчанию. Выяснилось, что при повышении Gap extension penalty количество инделей увеличилось, но они укоротились.

При значительном увеличении параметра Gap opening penalty происходит значительное уменьшение инделей.