Учебный сайт Смирновой Виктории

Главная Проекты Семестры


Множественное выравнивание последовательностей

  1. Ознакомление с программой Muscle.

    С помощью SRS я получила последовательности дельта-антигенов из банка Swiss-Prot (все дельта-антигены происходят из вирусов рода"Deltavirus" и имеют в описании слово "delta").
    С помощью программы Muscle эти последовательности были выровнены.
    Файл с последовательностями дельта-антигенов в формате fasta
    Файл с выравниванием последовательностей дельта-антигенов в формате fasta
    Файл с выравниванием последовательностей дельта-антигенов, сохраненный после импорта в GeneDoc в формате msf

    До выравнивания в файле было очень мало идентичных колонок. Но при вставке всего лишь двух гэпов в некоторые последовательности GeneDoc обозначил цветом сразу большое количество таковых. Дельта-антигены оказались очень близкими гомологами, поэтому в выравнивании всего две колонки, в которых присутствуют гэпы, и очень много идентичных/схожих для всех/подавляющего большинства последовательностей участков.
    Прикидывая расположение гэпов, я поставила их почти так же, как и Muscle: все отличия не влияют ни на счет, ни на количество пропусков (Muscle поставил все первые гэпы в одну колонку, но это не дало никаких дополнительных сходств или совпадений (поэтому я и не догадалась сделать так же - отсутствие сходств в этом месте говорит о том, что выставление гэпов в одну колонку играет эстетическую, а не смысловую роль)). Для примера - один и тот же участок выравниваний, содержащий первый гэп:
    Выравнивание Muscle Мое выравнивание
    Из этого же сравнения видно, что программа Muscle переставляет последовательности, выставляя их по роду и количеству замен.


  2. Выравнивание набора гомологов моего белка.

    Через BLASTP я нашла гомологи моего белка (GLUQ_ECOLI) и выбрала из них 8: из отделов Cyanobacteria, Firmicutes, Actinobacteria и Proteobacteria (из классов Betaproteobacteria, Gammaproteobacteria (к которым относится E.coli), Deltaproteobacteria). С помощью программы Muscle были выровнены последовательности выбранных гомологов.
    Файл с последовательностями моего белка и его гомологов в формате fasta
    Файл с выравниванием последовательностей моего белка и его гомологов в формате fasta
    Файл с выравниванием последовательностей моего белка и его гомологов, сохраненный после импорта в GeneDoc в формате msf

    Описание выравнивания
    Без скобок указаны координаты по столбцам выравнивания, а в скобках - по остаткам моего белка.
    • Участки с повышенной долей консервативных позиций - это участки с высоким процентом полностью/практически полностью идентичных колонок: 34-83 (8-56), 217-297 (160-238). Картинка со вторым участком:


    • Участки, где выравнивание недостоверно, то есть скорее всего не имеет биологического смысла - это часто участки, где по бокам от идентичных/сходных колонок много гэпов, т. е. программа "подогнала" одинаковые остатки, или же такие одиночные колонки в неконсервативных в целом участках (случайные совпадения распостраненных остатков). Такие вещи можно с большой вероятностью встретить по краям выравнивания - в моем случае это участок 308-321 (289-296):


  3. Другие программы множественного выравнивания.

    Файл с выравниванием программой mafft последовательностей моего белка и его гомологов в формате fasta
    Файл с выравниванием программой edialign последовательностей моего белка и его гомологов в формате fasta

    Участки, которые в предыдущем задании были отмечены как наиболее консервативные сохранены без изменений в обоих выравниваниях. Но участки с небольшим процентом сходства в выравниваниях различаются. В edialign, в отличие от mafft, можно выбрать штраф за гэп. При выставленных значениях по умолчанию edialign вставила очень много гэпов, за счет чего получилось самое длинное выравнивание, то есть edialign - программа глобального множественного выравнивания, но большая часть небольших выровненных участков похожа на случайные совпадения и вряд ли имеет биологический смысл.
    В выравнивании mufft нет видимых отличий от выравнивания muscle.

  4. Знакомство с некоторыми программами обработки множественных выравниваний.

    С помощью программы consambig на основе выравнивания muscle была построена теоретическая предковая для моего белка и его гомологов последовательность. Последовательность в формате fasta

    Программа distmat построила матрицу расстояний по выравниванию muscle. Матрица расстояний отображает эволюционные расстояния для каждой пары последовательностей в количестве замен на 100 аминокислотных остатков.

© Smirnova Victoriya, 2008