Множественное выравнивание последовательностей

  1. Ознакомление с программой Muscle

    Получил файл с последовательностями 34 дельта-антигенов в формате fasta delta.fasta с помощью SRS (для чего при составлении запроса к банку данных Swiss-Prot ввел в поле поиска Description слово "delta", а в поле Taxonomy название рода "Deltavirus" (полный запрос выглядит так: ([swissprot-Taxonomy:Deltavirus*] & [swissprot-Description:delta*])), после чего сохранил последовательности антигенов с помощью кнопки Save).
    Импортировал файл в Genedoc. Так выглядит "выравнивание" невыравненных последовательностей: delta.msf:

    C помощью программы Muscle построил множественное выравнивание последовательностей: delta_aligned.fasta.
    Импортировал файл в Genedoc: delta_aligned.msf:

    Как видно, последовательности настолько похожи между собой, что даже если просто поставить последовательности друг под другом (как в файле delta.msf), в них найдутся несколько столбцов с консервативными остатками (в начале выравнивания), сохранившими свои позиции во всех дельта-антигенах. Естественно, после выравнивания таких столбцов оказалось гораздо больше (в файле delta_aligned.msf). По результатам выравнивания можно с уверенностью сказать, что белки гомологичны и очень схожи по пространственной структуре. Такое огромное количество консервативных остатков - достаточное основание так полагать. Очевидно, в этих белках не имеют особенного биологического смысла лишь концы некоторых последовательностей (начиная с 197-й позиции выравнивания), ведь в других белках им соответсвуют гэпы (впрочем, концы белков, у которых они есть, очень сходны между собой, так что, возможно, тоже выполняют какую-то биологическую функцию, присущую лишь этим белкам).
  2. Выравнивание набора гомологов белка DPS_ECOLI

    Посредством BLAST получил 8 гомологов моего белка, встречающихся в таксоне Bacteria, E-value которых менее 0.001, а процент идентичности выравнивания менее 80%, но более 30%.
    Среди этих гомологов оказались:
    DPS_YERPS (Q669E1) с E-value, равным 1.10-75, и процентом идентичности, равным 79%. Таксономия бактерии, содержащей этой белок: Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Yersinia.
    DPS_SERMA (Q84AP0) с E-value, равным 9.10-74, и процентом идентичности, равным 76%. Таксономия бактерии, содержащей этой белок: Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Serratia.
    DPS_SODGM (Q2NU13) с E-value, равным 6.10-72, и процентом идентичности, равным 76%. Таксономия бактерии, содержащей этой белок: Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Sodalis.
    DPS_ERWCT (Q6D3H7) с E-value, равным 2.10-71, и процентом идентичности, равным 74%. Таксономия бактерии, содержащей этой белок: Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Pectobacterium.
    DPS_ACIAD (Q6FCX7) с E-value, равным 1.10-51, и процентом идентичности, равным 60%. Таксономия бактерии, содержащей этой белок: Bacteria; Proteobacteria; Gammaproteobacteria; Pseudomonadales; Moraxellaceae; Acinetobacter.
    DPS_AGRT5 (Q8UCK6) с E-value, равным 4.10-45, и процентом идентичности, равным 55%. Таксономия бактерии, содержащей этой белок: Bacteria; Proteobacteria; Alphaproteobacteria; Rhizobiales; Rhizobiaceae; Rhizobium/Agrobacterium group; Agrobacterium.
    DPS_BREBE (P83695) с E-value, равным 6.10-12, и процентом идентичности, равным 33%. Таксономия бактерии, содержащей этой белок: Bacteria; Firmicutes; Bacillales; Paenibacillaceae; Brevibacillus.
    DPS_STRMU (Q9KWH3) с E-value, равным 6.10-11, и процентом идентичности, равным 27%. Таксономия бактерии, содержащей этой белок: Bacteria; Firmicutes; Lactobacillales; Streptococcaceae; Streptococcus.
    С помощью программы seqret пакета EMBOSS получил последовательности белка DPS_ECOLI и найденных гомологов в fasta-формате: myproteins11.fasta.
    После этого с помощью программы muscle получил множественное выравнивание белка DPS_ECOLI и гомологов: myproteins_aligned11.fasta.
    Затем импортировал выравнивание в GeneDoc и сохранил в файле myproteins_aligned11.msf:

    Как видно, последовательности очень сходны между собой, что говорит об очень высокой вероятности того, что они гомологичны. В выравнивании можно обнаружить очень много консервативных остатков. Самые крупные участки, состоящие почти исключительно из консервативных остатков - это, во-первых, участок с 43-й по 58-ю позицию выравнивания (сооветствует участку с 41-й по 56-ю позицию последовательности белка DPS_ECOLI), во-вторых, участок с 61-й по 75-ю позицию выравнивания (соответствует участку с 59-й по 73-ю позицию последовательности белка DPS_ECOLI), в-третьих, участок с 83-й по 98-ю позицию выравнивания (соответствует участку с 81-й по 96-ю позицию последовательности белка DPS_ECOLI), ну и, наконец, участок со 149-й по 172-ю позицию выравнивания (соответствует участку со 144-й по 167-ю позицию последовательности белка DPS_ECOLI). Безусловно, такое огромное количество больших участков выравнивания с консервативными остатками говорит о гомологичности последовательностей. Более того, по данным UniProt в последовательности белка DPS_ECOLI три аминокислотных остатка отвечают за связывание полипептидной цепи с ионом железа, что чрезвычайно важно для выполнения функции белков семейства DPS. Это аминокислотные остатки под номерами 51 (H), 78 (D) и 82 (E). Как видно из выравнивания, эти остатки консервативны для всех выравниваемых белков (они соответствуют 53-й, 80-й и 84-й позициям выравнивания), что так же говорит об их гомологичности, ведь это уже дает основания подозревать белки в выполнении схожих функций (и образовании схожих активных центров).
    Однако, если присмотреться к этому выравниванию, то можно обнаружить участки с недостоверным выравниванием, скорее всего лишенные биологического смысла. Прежде всего стоит обратить внимание на начало последовательностей. Довольно очевидно, что начало последовательности белка DPS_ACIAD выравнено неверно, немного сдвинуто относительно всех остальных последовательностей. Кроме того, обращает на себя внимание участок выравнивания с 8-й по 18-ю позицию (в белке DPS_ECOLI это участок с 6-й по 16-ю позицию), где в последовательности белка DPS_AGRT5 стоят гэпы (и почти на тех же позициях гэпы стоят и в последовательности белка DPS_ACIAD). Конечно, возможно, что этот участок у других белков играет какую-либо роль в выполнении их функций, а белки DPS_AGRT5 и DPS_ACIAD, соответственно, этой функции лишены, но в это верится довольно слабо (тем более у других белков этот участок почти не несет консервативных на 100% остатков). Та же ситуация наблюдается на участке с 143-й по 145-ю позицию выравнивания (между 140-й и 141-й позициями последовательности белка DPS_ECOLI), только здесь, наоборот, гэпы стоят в последовательностях всех белков, кроме DPS_AGRT5. Ну и, наконец, внимание обращает на себя конец выравнивания. Начиная с 173-й позиции выравнивания (после 167-й позиции последовательности белка DPS_ECOLI) в последовательностях 5 белков из 7 стоят гэпы, но в посдеовательностях белков DPS_AGRT5 и DPS_ACIAD имеются аминокислотные остатки, причем не схожие между собой. Эти участки, скорее всего, не имеют никакого биологического смысла, и, вероятно, даже не влияют на пространственную структуру белков, никак не мешая выполнению их функций.

Дополнительные задания

  1. Другие программы множественного выравнивания

    Программа mafft

    С помощью программы mafft построил выравнивание белка DPS_ECOLI и найденных 6 его гомологов: myproteins_mafft.fasta.
    После этого импортировал файл в GeneDoc. Так выглядит множественное выравнивание последовательностей myproteins_mafft.msf:

    Выравнивания, полученные с помощью программ muscle и mafft, очень похожи друг на друга. Отличий всего два. Первое заключается в том, что в выравнивании, представленном программой mafft, устранена ошибка выравнивания начал последовательностей, имевшая место в выравнивании muscle. В выравнивании mafft первый столбец содержит в себе первый аминокислотный остаток всех белков (М). Конечно, в этом смысле выравнивание mafft является более осмысленным по сравнению с выравниванием muscle. Кроме того, отличие между двумя выравниваниями состоит в том, что в выравнивании muscle мы наблюдаем наличие трех пробелов последовательностей всех белков, кроме DPS_AGRT5, на позициях выравнивания со 143-й по 145-ю. В выравнивании mafft этот пропуск имеет место со 139-й по 141-ю позицию выравнивания, то есть пропуск немного сдвинут относительно последовательности DPS_AGRT5. В принципе, мне кажется, что ключевой разницы в расположении этого пропуска нет, потому что этот участок выравнивания, скорее всего, ни в том, ни в другом случае не имеет биологического смысла.

    Программа edialign

    C помощью программы edialign построил выравнивание белка DPS_ECOLI и найденных 6 его гомологов: myproteins_edialign.fasta.
    После этого импортировал файл в GeneDoc. Так выглядит множественное выравнивание последовательностей myproteins_edialign.msf:

    Забавно, но выравнивание, построенное программой edialign, отличается от выравнивания muscle ровно тем же, чем и выравнивание mafft. Но что самое интересное, ровно тем же выравнивание edialign отличается от выравнивания mafft, а именно: в начале выравнивания в первом столбце расположен первый аминокислотный остаток всех белков (М), но на второй и третьей позициях мы наблюдаем наличие не только 2 аминокислотных остатков последовательности DPS_ACIAD, но еще и 2 аминокислотных остатков последовательности DPS_AGRT5 (то есть два пропуска последовательности DPS_AGRT5, имевшие место в выравниваниях muscle и mafft, сливаются в один в выравнивании edialign). Мне кажется, что программа mafft лучше всего выравнила начало последовательностей, ведь программа muscle сдвинула первый аминокислотный остаток последовательности DPS_ACIAD, а программа edialign, совместив два пропуска, лишила выравнивание двух столбцов с полностью консервативными остатками. Кроме того, в конце выравнивания опять сдвинуты пропуски из трех пробелов всех последовательностей, кроме DPS_AGRT5. На этот раз они имеют место со 136-й по 138-ю позицию выравнивания. Опять же, скорее всего, ничего страшного в этом нет, потому что, вероятно, биологического смысла в этом участке выравнивания нет, но мне все же кажется, что программа edialign выдала в этом смысле самое плохое выравнивание, потому что из-за смещения трех пробелов исчезли три столбца похожих и консервативных остатков, имевшие место в выравниваниях muscle и mafft.
    В целом, мне кажется, что программа mafft построила в данном случае самое лучшее выравнивание, обойдя все ошибки, допущенные программами muscle и edialign, хотя нужно признать, что все три программы хорошо справились с заданием и выдали очень похожие друг на друга выравнивания.
  2. Знакомство с некоторыми программами обработки множественных выравниваний

    Программа consambig

    Программа consambig создает неясную согласованную последовательность из множественного выравнивания последовательностей. Другими словами, используя специальные символы и буквы аминокислотных остатков, основываясь на множественном выравнивании, программа создает последовательность, полностью удовлетворяющую этому выравниванию, в общем виде. Обработке я подверг лучшее выравнивание (полученное программой mafft), в результате чего получил следующую последовательность (сохраненную в файле myproteins_mafft_consambig.fasta):
    >EMBOSS_001
    MskXXXKlxkxxxxxlxxTXNBXXXXXKXXXXXXLNXXXXXXXDLXLXTKQAHWNXXGXX
    FXXVHEXLDXFRTXJXXHXDXXAERXVQJGGXALGXXQXXXXXXXLXXYPXXIXXXXXHL
    XXLXXRYXXVANXXRXXIddsXXXXDXXXXDXXXAAXXDLDXXLWFJEXXXZzxxtta
    

    Программа distmat

    Программа distmat создает матрицу, указывающую на эволюционное расстояние между двумя белками (поэтому представляет собой половину квадрата, на главной диагонале которого расположены нули (это эволюционное расстояние белка самим с собой), а выше диагонале соответственно эволюционное расстояние между белком, расположенным выше по вертикали, и белком, расположенным правее по горизонтали).
    Существует несколько методов подсчета эволюционного расстояния между парами белков. Первый из них - Uncorrected distances (подсчет расстояния без поправки на множественные замены). Подсчет расстояния между выравненными белками (программой mafft) таким методом был сохранен мной в файле myproteins_mafft_distmat_0.fasta.
    Второй из них носит название Jukes-Cantor (этот метод делает поправку на множственные замены). Подсчет расстояния между выравненными белками (программой mafft) таким методом был сохранен мной в файле myproteins_mafft_distmat_1.fasta.
    И, наконец, третий из них носит название Kimura Protein distance. Этот метод делает поправку на множественные замены, а также игнорирует гэпы и при расчете эволюционного рсстояния учитывает только точные совпадения. Подсчет расстояния между выравненными белками (программой mafft) таким методом был сохранен мной в файле myproteins_mafft_distmat_2.fasta.
    Таким образом, становится вполне ясным, почему эволюционное расстояние между двумя белками в первом методе меньше расстояния между теми же белками во втором методе, а расстояние между этими же белками в третьем методе превосходит расстояние и в первом, и во втором методе.

    Программа plotcon

    Программа plotcon изображает график сходства (консервативности) аминокислотных остатков последовательностей в множественном выравнивании. Обработке я подверг выравнивание программы mafft. Программа plotcon, основываясь на этом выравнивании, построила следующий график:

    Как видно из графика, самые большие участки консервативных остатков располагаются примерно на 20-й, 55-й и 165-й позициях выравнивания, а наименее сходны последовательности на 10-й и 140-й позициях выравнивания. Обратившись к выравниванию, мы видим, что так оно и есть. На 10-х позициях, как раз, располагаются пропуски двух последовательностей. На 20-х позициях располагается первый крупный участок из 5 столбцов консервативных остатков. На 55-х позициях располагается самый крупный участок с консервативными остатками (целых 16 позиций подряд). На 165-х позициях располагается тоже довольно крупный участок с консервативными остатками (5 позиций). А на 136-138-х позициях располагаются пропуски во всех последовательностях, кроме DPS_AGRT5. Таким образом, график довольно точно отображает расположение участков выравнивания с консвервативными остатками и участков с расходящимися последовательностями белков.

Назад