MSA

Множественное выравнивание

На этой странице можно ознакомиться с некоторыми результатами моей работы с программами выравнивания GeneDoc, MUSCLE, EMMA.
Изначально было необходимо с помощью программы blastP найти некоторое число последовательностей белков, гомологичных моему. Далее строились и сравнивались между собой различные выравнивания. Более подробно о некоторых шагах работы рассказано ниже.

Выбранные гомологичные последовательности

Перейдя по находящейся выше гиперссылке можно просмотреть последовательности в формате FASTA восьми белков, принадлежащих представителям таксона Bacteria. Первый из них является белком, данным мне для работы в начале прошлого семестра. Семь других гомологичны ему, взяты из списка выдачи программы blastP
Гомологи располагаются в списке в порядке убывания процента совпадения их последовательностей с последовательностью моего белка.

Выравнивание с помощью программы emma

Выравнивание с помощью программы muscle

Матрица попарного совпадения последовательностей, получена на основе множественного выравнивания с помощью программы emma

Сравнение 2-х множественных выравниваний

С помощью программы GeneDoc сопоставлялись множественные выравнивания, полученные программами emma и muscle. Раскрашенные выравнивания можно посмотреть здесь .
Сравнивая их, я заметила следующие особенности.
В первых трех блоках выравниваний для результатов, полученных программами emma и muscle, колонки с консервативными аминокислотными остатками в большинстве случаев совпадают (т.е. столбцы с соответственно одинаковыми для 2 выравниваний аминокислотными остатками располагаются один над другим). Далее программа muscle ставит значительное число гэпов, из-за чего такое соответствие теряется. Но важно то, что программа muscle обнаружила все же несколько больше консервативных колонок, чем emma: 36 против 27 для консервативных на 100% и приблизительно одинаковое число позиций, консервативных на 70%. Это говорит нам о том, что программа muscle, по-видимому, лучше выявляет консервативные области. А потому ее использование кажется мне более предпочтительным для наших целей.

Сравнение оптимального попарного выравнивания последовательностей iscs_rutmc.fasta и nifs_rhoca.fasta с их попарным выравниванием, порожденным множественным выравниванием

C помощью программы needle на сервере kodomo-count мною было получено оптимальное попарное выравнивание этих двух последовательностей. Оно сравнивалось в GeneDoc с выравниваниями, полученными программами emma и muscle.
В GeneDoc было создано 3 группы выравниваний с независимой раскраской консервативных позиций. Результат, полученный после импортирования оптимального выравнивания, можно посмотреть здесь. Однако, более наглядным мне кажется следующее представление. То есть, для удобства можно просто сдвинуть выравнивания к общему началу.
Если их сравнить между собой, то можно заметить следующие особенности. Выравнивания, полученные при помощи программ emma и muscle, как говорилось ранее, до определенного момента практически идентичны по столбцам (в последней компоновке выравниваний – до 241 позиции), а далее сдвигаются друг относительно друга (хотя консервативные группы по большей части остаются одинаковы). Выравнивание, выданное программой needle до определенного момента (примерно до 158 позиции) в основном совпадает с двумя другими. А далее в нем на определенных позициях появляются гэпы, в результате чего выравнивание, выданное программой needle, сдвигается относительно muscle и emma. Поэтому более не наблюдается колонок, в которых столбцы выравнивания needle совпадали бы по остаткам со столбцами других двух выравниваний. Т.е. иными словами, далее выравнивания не идут параллельно. Но в них все же довольно четко прослеживаются одинаковые консервативные участки. То есть, в общем можно сделать вывод: хотя 3 выравнивания по своей структуре во многом отличаются друг от друга, в них все же выделяются почти одинаковые консервативные области, причем особо четко - достаточно длинные.

Что можно узнать о множественном выравнивании с помощью программы infoalign пакета EMBOSS.

Программа выдает информацию о множественном выравнивании последовательностей в виде файла с таблицей, в которой можно обнаружить следующие данные о каждом белке(на примере выравнивания, полученного программой muscle):

длина последовательности (для моего белка ISCS_ECOLI - 404)

длина выравнивания (для него же - 430)

число гэпов (наибольшее - 11 – в последовательности белка NIFS_ANASP)

длина гэпов (для того же NIFS_ANASP так же наибольшая - 30)

число идентичных остатков в попарном сравнении каждой последовательности с одной определенно выбранной (в данном случае, для 8 белков – от 124 до 290)

число похожих аминокислотных остатков в попарном сравнении каждой последовательности с одной определенно выбранной (от 43 до 69)

число различных остатков в попарном сравнении каждой последовательности с одной определенно выбранной (от 71 до 221)

процент различий в попарном сравнении каждой последовательности с одной определенно выбранной (для этого выравнивания примерно от 32 до70)

Вес (все значения – 1.000000)

Описание (для всех восьми гомологов присутствует запись Cysteine desulfurase)

Всю информацию о данном выравнивании, полученную командой infoalign можно просмотреть в виде таблицы.

Множественное выравнивание
На этой странице можно ознакомиться с некоторыми результатами моей работы с программами выравнивания GeneDoc, MUSCLE, EMMA. Изначально было необходимо с помощью программы blastP найти некоторое число последовательностей белков, гомологичных моему. Далее строились и сравнивались между собой различные выравнивания. Более подробно о некоторых шагах работы рассказано ниже.
Выбранные гомологичные последовательности
Перейдя по находящейся выше гиперссылке можно просмотреть последовательности в формате FASTA восьми белков, принадлежащих представителям таксона Bacteria. Первый из них является белком, данным мне для работы в начале прошлого семестра. Семь других гомологичны ему, взяты из списка выдачи программы blastP Гомологи располагаются в списке в порядке убывания процента совпадения их последовательностей с последовательностью моего белка.
Выравнивание с помощью программы emma
Выравнивание с помощью программы muscle
Матрица попарного совпадения последовательностей, получена на основе множественного выравнивания с помощью программы emma
Сравнение 2-х множественных выравниваний
С помощью программы GeneDoc сопоставлялись множественные выравнивания, полученные программами emma и muscle. Раскрашенные выравнивания можно посмотреть здесь . Сравнивая их, я заметила следующие особенности. В первых трех блоках выравниваний для результатов, полученных программами emma и muscle, колонки с консервативными аминокислотными остатками в большинстве случаев совпадают (т.е. столбцы с соответственно одинаковыми для 2 выравниваний аминокислотными остатками располагаются один над другим). Далее программа muscle ставит значительное число гэпов, из-за чего такое соответствие теряется. Но важно то, что программа muscle обнаружила все же несколько больше консервативных колонок, чем emma: 36 против 27 для консервативных на 100% и приблизительно одинаковое число позиций, консервативных на 70%. Это говорит нам о том, что программа muscle, по-видимому, лучше выявляет консервативные области. А потому ее использование кажется мне более предпочтительным для наших целей.
Сравнение оптимального попарного выравнивания последовательностей iscs_rutmc.fasta и nifs_rhoca.fasta с их попарным выравниванием, порожденным множественным выравниванием
C помощью программы needle на сервере kodomo-count мною было получено оптимальное попарное выравнивание этих двух последовательностей. Оно сравнивалось в GeneDoc с выравниваниями, полученными программами emma и muscle. В GeneDoc было создано 3 группы выравниваний с независимой раскраской консервативных позиций. Результат, полученный после импортирования оптимального выравнивания, можно посмотреть здесь. Однако, более наглядным мне кажется следующее представление. То есть, для удобства можно просто сдвинуть выравнивания к общему началу. Если их сравнить между собой, то можно заметить следующие особенности. Выравнивания, полученные при помощи программ emma и muscle, как говорилось ранее, до определенного момента практически идентичны по столбцам (в последней компоновке выравниваний – до 241 позиции), а далее сдвигаются друг относительно друга (хотя консервативные группы по большей части остаются одинаковы). Выравнивание, выданное программой needle до определенного момента (примерно до 158 позиции) в основном совпадает с двумя другими. А далее в нем на определенных позициях появляются гэпы, в результате чего выравнивание, выданное программой needle, сдвигается относительно muscle и emma. Поэтому более не наблюдается колонок, в которых столбцы выравнивания needle совпадали бы по остаткам со столбцами других двух выравниваний. Т.е. иными словами, далее выравнивания не идут параллельно. Но в них все же довольно четко прослеживаются одинаковые консервативные участки. То есть, в общем можно сделать вывод: хотя 3 выравнивания по своей структуре во многом отличаются друг от друга, в них все же выделяются почти одинаковые консервативные области, причем особо четко - достаточно длинные.
Что можно узнать о множественном выравнивании с помощью программы infoalign пакета EMBOSS.
Программа выдает информацию о множественном выравнивании последовательностей в виде файла с таблицей, в которой можно обнаружить следующие данные о каждом белке(на примере выравнивания, полученного программой muscle): длина последовательности (для моего белка ISCS_ECOLI - 404) длина выравнивания (для него же - 430) число гэпов (наибольшее - 11 – в последовательности белка NIFS_ANASP) длина гэпов (для того же NIFS_ANASP так же наибольшая - 30) число идентичных остатков в попарном сравнении каждой последовательности с одной определенно выбранной (в данном случае, для 8 белков – от 124 до 290) число похожих аминокислотных остатков в попарном сравнении каждой последовательности с одной определенно выбранной (от 43 до 69) число различных остатков в попарном сравнении каждой последовательности с одной определенно выбранной (от 71 до 221) процент различий в попарном сравнении каждой последовательности с одной определенно выбранной (для этого выравнивания примерно от 32 до70) Вес (все значения – 1.000000) Описание (для всех восьми гомологов присутствует запись Cysteine desulfurase) Всю информацию о данном выравнивании, полученную командой infoalign можно просмотреть в виде таблицы.

Главная страница
К работам второго семестра