Множественные выравнивания 1 Ознакомление с программой Muscle |
||||||||||||||||||||||||||||
Для построения множественного выравнивания вирусных дельта-антигенов сначала получим файл с последовательностями этих белков в fasta-формате. Для этого в системе поиска SRS введем в поле Taxonomy слово Deltavirus, а в поле Description слово delta, указав предварительно, что будем искть по Swiss-Prot. Полученный список последовательностей (всего их 34) сохраним в fasta-формате: delta.fasta. Невыровненные последовательности в GeneDoc выглядят так (показаны частично, полная картинка здесь): |
||||||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||||||
Посмотреть эти последовательности в GeneDoc можно здесь. Мы можем определить вероятное расположение пробелов в выравнивании на глаз. Например, на приведенном выше рисунке красным отмечены повторяющиеся во всех последовательностях группы REE (в некоторых последовательностях последний а.о. варьирует, но это не имеет значения). В большинстве последовательностей эти группы располагаются одинаково, но в некоторых они сдвинуты на один а.о. вправо, следовательно, в остальных последовательностях при выравнивании перед этой группой появится пробел. Теперь выровняем последовательности при помощи программы muscle, выполнив команду muscle -in delta.fasta -out delta_aligned.fasta Мы получили выравнивание в fasta-формате, оно находится в файле delta_aligned.fasta. Мы можем импортировать его в GeneDoc (последовательности показаны частично, полная картинка здесь): |
||||||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||||||
Посмотреть выравнивание в GeneDoc можно здесь. Мы видим, что совпадений стало гораздо больше, причем для этого не понадобилось вставлять много гэпов: всего один гэп как раз в том месте, которое мы обнаружили в еще невыровненных последовательностях. Кроме того, после выравнивания изменился порядок последовательностей. |
||||||||||||||||||||||||||||
2 Выравнивание набора гомологов своего белка |
||||||||||||||||||||||||||||
Найдем в BLAST несколько последовательностей, схожих с последовательностью исследуемого белка OTC1_ECOLI (AC P04391), причем идентичность последовательностей должна быть меньше 90%:
fasta-формат формат .msf |
||||||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||||||
Судя по получившемуся выравниванию, белки достаточно схожи, что позволяет предположить их гомологию. Есть довольно много участков с консервативными позициями (выделены на рисунке фиолетовым): |
||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||
В принципе, выравнивание полностью биологически обоснованно. Заметно, что 4 последние белка (OTC_VIBHB, OTC_YERP3, OTC1_ECOLI и OTC_SALTI) имеют больше консервативных позиций, чем белки OTC_PSEPK и OTCC_STRRT. Но и таксономически бактерии, синтезирующие эти белки, далеки друг от друга. OTC_YERP3, OTC1_ECOLI и OTC_SALTI - это белки бактерий из одного семейства (Enterobacteriaceae), в то время как OTC_PSEPK синтезирует бактерия из семейства Pseudomonadaceae, а бактерия, несущая белок OTCC_STRRT, относится вообще к другому типу (Firmicutes, а не Proteobacteria, как было у предыдущих белков). Тем не менее, белок OTC_VIBHB довольно схож с
OTC_YERP3, OTC1_ECOLI и OTC_SALTI, хотя он, как и OTC_PSEPK, принадлежит бактерии также из другого семейства (Vibrionaceae). Большое количество гэпов в первой строке выравнивания (последовательность OTC_PSEPK) вполне может быть объяснено тем, что этот белок произошел путем множества делеций либо вставок из общего предка всех рассмотренных белков. То же можно сказать и о второй последовательности (OTCC_STRRT), которая в данном выравнивании содержит меньшее число гэпов. Похоже, не несут биологического смысла позиции выравнивания с 334 по 341 (последние, туда входят лишь 2 а.о. из OTC1_ECOLI: 333 и 334) для первых трех последовательностей. У них длины "хвостов" и их состав существенно различаются. Возможно, эти концевые участки не несут никакой функциональной нагрузки. Тем не менее, у белков OTC_YERP3, OTC1_ECOLI и OTC_SALTI даже здесь наблюдается сходство, что также подтверждает их гомологичность. |
||||||||||||||||||||||||||||
3* Другие программы множественного выравнивания |
||||||||||||||||||||||||||||
В программе mafft было создано еще одно выравнивание этих же последовательностей (файл в fasta-формате: myproteins_mafft.fasta, файл .msf: myproteins_mafft.msf. Оно практически не отличается от выравнивания из muscle (задание 2), кроме начального и концевого участков, которые показаны на рисунке: |
||||||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||||||
Здесь как раз выровнены инициирующие метионины, кроме того, в конце участок последовательности OTC_PSEPK (а.о. 296-306) сдвинут вправо на единицу. Но это фактически ничего не меняет. Выравнивание из edialign также отличается от двух остальных только началом и концом. В начале программа так же, как и mafft, выровняла метионины, но по-другому расположила аминокислотные остатки между этими метионинами и первой консервативной позицией (8-я, соответствует 7-й позиции OTC1_ECOLI). Эти изменения ничего не значат, так как биологического смысла этот участок как не нес, так и не несет. Конечный участок, также не имеющий биологического смысла для OTC_VIBHB, OTC_PSEPK и OTCC_STRRT, здесь такой же, как и в выравнивании, полученном muscle. Начало и конец выравнивания из edialign показаны на рисунке ниже. |
||||||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||||||
Выравнивание в fasta-формате: myproteins_edialign.fasta, в файле .msf: myproteins_edialign.msf. | ||||||||||||||||||||||||||||
4* Знакомство с некоторыми программами обработки множественных выравниваний |
||||||||||||||||||||||||||||
к проектам на главную |