Сначала я получила списки идентификаторов Swiss-Prot с заданной мнемоникой организмов (_ECOLI - штамм К12 кишечной палочки и _BACSU - штамм 168 сенной палочки) с помощью команд:
infoseq 'sw:*_ECOLI' -only -name -nohead -out ECOLI.txt
infoseq 'sw:*_BACSU' -only -name -nohead -out BACSU.txt
Чтобы найти белки с одинаковыми мнемониками функции, я использовала следующую команду на kodomo:
cut -f 1 -d '_' ECOLI.txt BACSU.txt | sort | uniq -d > common_mnems.txt
Из полученного документа я случайным образом выбрала 3 белка со следующими мнемониками: RL21, SLP, DHPS. Чтобы определить соответствующие им полные имена белка, я использовала следующие команды на kodomo (на месте MNEM подразумеваются RL21, SLP, DHPS):
entret sw:MNEM_ecoli -filter | grep '^DE' - для штамма K12 кишечной палочки
entret sw:MNEM_bacsu -filter | grep '^DE' - для штамма 168 сенной палочки
Затем я выполнила глобальное выравнивание для каждой пары белков с одинаковыми мнемониками. Для этого я использовала следующую команду на kodomo (на месте MNEM подразумеваются RL21, SLP, DHPS):
needle sw:MNEM_ecoli sw:MNEM_bacsu MNEM.needle -auto
Полученные результаты представлены в таблице ниже:
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Large ribosomal subunit protein bL21 | RL21_ECOLI | RL21_BACSU | 240.0 | 45.6 | 68.0 | 1 | 1 |
Outer membrane protein Slp | SLP_ECOLI | SLP_BACSU | 15.0 | 13.1 | 25.7 | 116 | 10 |
Dihydropteroate synthase | DHPS_ECOLI | DHPS_BACSU | 500.0 | 40.0 | 56.0 | 33 | 8 |
Далее для тех же пар белков я сделала локальное выравнивание, с помощью следующей команды на kodomo (на месте MNEM подразумеваются RL21, SLP, DHPS):
water sw:MNEM_ecoli sw:MNEM_bacsu MNEM.water -auto
Полученные результаты представлены в таблице ниже:
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Large ribosomal subunit protein bL21 | RL21_ECOLI | RL21_BACSU | 240.0 | 45.6 | 68.0 | 1 | 1 | 100% | 100% |
Outer membrane protein Slp | SLP_ECOLI | SLP_BACSU | 35.0 | 20.4 | 40.7 | 4 | 1 | 26.6% | 43.5% |
Dihydropteroate synthase | DHPS_ECOLI | DHPS_BACSU | 515.5 | 43.2 | 61.4 | 8 | 3 | 91.5% | 88.4% |
Как и в прошлый раз, я случайным образом выбрала мнемоники: в этот раз это оказались мнемоники END3 и HOLB. Из кишечной палочки я выбрала белок с мнемоникой END3, а из сенной - HOLB. Для получения названия белков, локального и глобального выравнивания я применила аналогичные команды тем, что были в прошлых заданиях:
entret sw:END3_ecoli -filter | grep '^DE' - для получения названия белка из штамма K12 кишечной палочки
entret sw:HOLB_bacsu -filter | grep '^DE' - для получения названия белка из штамма 168 сенной палочки
needle sw:END3_ecoli sw:HOLB_bacsu diff.needle -auto - для получения глобального выравнивания двух белков
water sw:END3_ecoli sw:HOLB_bacsu diff.water -auto - для получения локального выравнивания двух белков
Результаты выравниваний представлены в таблицах ниже:
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Endonuclease III and DNA polymerase III subunit delta | END3_ECOLI | HOLB_BACSU | 23.0 | 10.2 | 16.1 | 280 | 14 |
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Endonuclease III and DNA polymerase III subunit delta | END3_ECOLI | HOLB_BACSU | 36.0 | 20.6 | 33.1 | 61 | 6 | 71.6% | 32.8% |
Ожидамо, оба выравнивания получили очень маленький вес. Интересно заметить, что при локальном выравнивании процент идентичности возрос с 10.2 до 20.6, при этом процент покрытия первого белка составил 71.6%, в то время как второго белка только 32.8%. Поскольку даже функции этих белков рознятся, то и полученные результаты не являются удивительными.
Для подчёта количества идентификаторов имеющих мнемонику RL21_* (полное имя RL21 - Large ribosomal subunit protein bL21) был использован конвейер команд, написанный ниже:
infoseq 'sw:rl21_*' -nohead|wc -l(выяснилось, что результатов 815)
infoseq 'sw:rl21_*' -only -name -nohead|less
Таким образом, для множественного выравнивания были выбраны белки с мнемониками: RL21_HUMAN, RL21_RABIT, RL21_MICAN, RL21_BUCAP, RL21_BACAC (помимо ранее использовавшихся RL21_ECOLI и RL21_BACSU).
Для множественного выравнивания я использовала на kodomo программу muscle. Сначала был создан txt файл с мнемониками:
Текстовый файл с мнемоникамиПотом были созданы файлы в fasta-формате, и запущены в muscle при помощи следующих команд:
seqret @rl21.txt rl21.fasta
muscle -in rl21.fasta -out rl21_alignment.fasta
В Jalview был загружен конечный файл с выравниваниями, а колонки стали раскрашены по проценту идентичности.
Белки выравнялись хорошо, но различия между организмами четко видны в зависимости от того является ли организм прокариотом или эукариотом, поскольку у прокариот 50S большая субъединица рибосомы, а у эукариот - 60S, что играет принципиальную роль для организма.
Needle и Water запрашивают два значения: Gap opening penalty (штраф за открытие инделя) и Gap extension penalty (штраф за удлинение инделя). Два алгоритма при одних и тех же значениях данных парамтеров (10 и 0.5 соответственно исходно) при выравнивании RL21_ECOLI и RL21_BACSU получили разные сочетания гэпов и инделей. При постепенном увелечении параметра Gap extension penalty, для программы needle её выравнивание начинает совпадать с выравниванием программы water со значениями по умолчанию. Выяснилось, что при повышении Gap extension penalty количество инделей увеличилось, но они укоротились.
При значительном увеличении параметра Gap opening penalty происходит значительное уменьшение инделей.