Множественное выравнивание

На этой странице можно ознакомиться с некоторыми результатами моей работы с программами выравнивания GeneDoc, MUSCLE, EMMA.
Изначально было необходимо с помощью программы blastP найти некоторое число последовательностей белков, гомологичных моему. Далее строились и сравнивались между собой различные выравнивания. Более подробно о некоторых шагах работы рассказано ниже.

  • Выбранные гомологичные последовательности
  • Перейдя по находящейся выше гиперссылке можно просмотреть последовательности в формате FASTA восьми белков, принадлежащих представителям таксона Bacteria. Первый из них является белком, данным мне для работы в начале прошлого семестра. Семь других гомологичны ему, взяты из списка выдачи программы blastP
    Гомологи располагаются в списке в порядке убывания процента совпадения их последовательностей с последовательностью моего белка.

  • Выравнивание с помощью программы emma
  • Выравнивание с помощью программы muscle
  • Матрица попарного совпадения последовательностей, получена на основе множественного выравнивания с помощью программы emma
  • Сравнение 2-х множественных выравниваний
  • С помощью программы GeneDoc сопоставлялись множественные выравнивания, полученные программами emma и muscle. Раскрашенные выравнивания можно посмотреть здесь .
    Сравнивая их, я заметила следующие особенности.
    В первых трех блоках выравниваний для результатов, полученных программами emma и muscle, колонки с консервативными аминокислотными остатками в большинстве случаев совпадают (т.е. столбцы с соответственно одинаковыми для 2 выравниваний аминокислотными остатками располагаются один над другим). Далее программа muscle ставит значительное число гэпов, из-за чего такое соответствие теряется. Но важно то, что программа muscle обнаружила все же несколько больше консервативных колонок, чем emma: 36 против 27 для консервативных на 100% и приблизительно одинаковое число позиций, консервативных на 70%. Это говорит нам о том, что программа muscle, по-видимому, лучше выявляет консервативные области. А потому ее использование кажется мне более предпочтительным для наших целей.

  • Сравнение оптимального попарного выравнивания последовательностей iscs_rutmc.fasta и nifs_rhoca.fasta с их попарным выравниванием, порожденным множественным выравниванием

  • C помощью программы needle на сервере kodomo-count мною было получено оптимальное попарное выравнивание этих двух последовательностей. Оно сравнивалось в GeneDoc с выравниваниями, полученными программами emma и muscle.
    В GeneDoc было создано 3 группы выравниваний с независимой раскраской консервативных позиций. Результат, полученный после импортирования оптимального выравнивания, можно посмотреть здесь. Однако, более наглядным мне кажется следующее представление. То есть, для удобства можно просто сдвинуть выравнивания к общему началу.
    Если их сравнить между собой, то можно заметить следующие особенности. Выравнивания, полученные при помощи программ emma и muscle, как говорилось ранее, до определенного момента практически идентичны по столбцам (в последней компоновке выравниваний – до 241 позиции), а далее сдвигаются друг относительно друга (хотя консервативные группы по большей части остаются одинаковы). Выравнивание, выданное программой needle до определенного момента (примерно до 158 позиции) в основном совпадает с двумя другими. А далее в нем на определенных позициях появляются гэпы, в результате чего выравнивание, выданное программой needle, сдвигается относительно muscle и emma. Поэтому более не наблюдается колонок, в которых столбцы выравнивания needle совпадали бы по остаткам со столбцами других двух выравниваний. Т.е. иными словами, далее выравнивания не идут параллельно. Но в них все же довольно четко прослеживаются одинаковые консервативные участки. То есть, в общем можно сделать вывод: хотя 3 выравнивания по своей структуре во многом отличаются друг от друга, в них все же выделяются почти одинаковые консервативные области, причем особо четко - достаточно длинные.

  • Что можно узнать о множественном выравнивании с помощью программы infoalign пакета EMBOSS.
  • Программа выдает информацию о множественном выравнивании последовательностей в виде файла с таблицей, в которой можно обнаружить следующие данные о каждом белке(на примере выравнивания, полученного программой muscle):
    1. длина последовательности (для моего белка ISCS_ECOLI - 404)
    2. длина выравнивания (для него же - 430)
    3. число гэпов (наибольшее - 11 – в последовательности белка NIFS_ANASP)
    4. длина гэпов (для того же NIFS_ANASP так же наибольшая - 30)
    5. число идентичных остатков в попарном сравнении каждой последовательности с одной определенно выбранной (в данном случае, для 8 белков – от 124 до 290)
    6. число похожих аминокислотных остатков в попарном сравнении каждой последовательности с одной определенно выбранной (от 43 до 69)
    7. число различных остатков в попарном сравнении каждой последовательности с одной определенно выбранной (от 71 до 221)
    8. процент различий в попарном сравнении каждой последовательности с одной определенно выбранной (для этого выравнивания примерно от 32 до70)
    9. Вес (все значения – 1.000000)
    10. Описание (для всех восьми гомологов присутствует запись Cysteine desulfurase)
    Всю информацию о данном выравнивании, полученную командой infoalign можно просмотреть в виде таблицы.

    Главная страница
    К работам второго семестра


    © Денисенко Елена, 2007