Множественные выравнивания



1. Выравнивание набора гомологов своего белка

a) С помощью BLAST я получила список гомологов своего белка (P37552). Так как их количество даже с ограничениями в e-value было слишком большим, пришлось провести отбор. Прежде всего, я оставила только те, где идентичность была > 40% и выкинула чересчур похожие последовательности, так как их выравнивание смотреть неинтересно и во многом бессмысленно. Остались следующие 7 (+1 исходная) последовательностей:


sw:rida_bacsu
sw:aldr_lacla
sw:y1466_pasmu
sw:dfra_myxxa
sw:y142_leumc
sw:Y4SK_RHISN
sw:Y364_AQUAE
sw:Y371_BUCAI

Этот список я внесла в файл myproteins.list.
Затем командой seqret @myproteins.list myproteins.fasta я получила, собственно, последовательности указанных белков в fasta-формате (myproteins.fasta).

b) С помощью JalView и программы Probcons я выровняла полученные последовательности. Сохраненное выравнивание можно посмотреть в файлах myproteins.msf и myproteins.jar.

c) По строке "Conservation" в результатах выравнивания можно увидеть, какие участки оставались консервативными во всех найденных последовательностях.


Белки ALDR_LACLA, Y1466_PASMU и DFRA_MYXXA отличаются от прочих тем, что в них встречаются "вставленные" участки последовательности, которые соответствуют гэпам у всех остальных белков, к примеру:
ALDR_LACLA: 105-108;
Y1466_PASMU: 3-7, 29-30;
DFRA_MYXXA: 105-108.
Это явление соответствует вставочной мутации, так что не противоречит биологическому смыслу.

d) Используя раскраску BLOSUM62 и строку "Consensus", я определила функцонально консервативные группы этих белков. Скобками обозначены остатки, которые в 1-2 случаях заменяются на схожие, так что можно сказать, что они тоже входят в группу:


[AP]
[(I)GPY(S)Q(A)]
[SGQ(I)]
[YF] ~ [FF]
[PAR]
[LP]
[EI(E)]

Ну и, разумеется, консервативен метионин в начале последовательностей.
Трудно выделить наиболее часто встречающуюся группу, но можно заметить, что сочетание PA (AP) встречается часто, на соответствуюзих позициях и во всех белках.
С помощью JalView я построила филогенетическое дерево гомологичных моему белку последовательностей. Как мы видим, наиболее близкий к моему белку - ALDR_LACLA (тот самый со вставочной мутацией), самый дальний от всех прочих последовательностей - Y142_LEUMC (кликабельно).

2. Программа Muscle

В SRS c помощью запроса (([swissprot-Organism:Deltavirus*] & [swissprot-Description:delta*]) & [swissprot-Description:small*]) я нашла "малые дельта-антигены", которые я надо выравнять в задании. Нашлось их 17, последовательности находок были сохранены в формате fasta.
С помощью команды muscle -in delta.fasta -out delta_aligned.fasta я выравняла последовательности белков. Полученный файл открыла в JalView (последовательности были выравнены на предыдущем шаге, на глаз лучшего выравнивания я не нашла, зачем там что-то менять?) и получила нужное выравнивание (из-за большой длины разбито на несколько частей, кликабельно).