Учебный сайт
Заиры Сефербековой

Анализ множественных выравниваний

Исходные данные

Было дано два множественных выравнивания.
Первое выравнивание пяти аминокислотных последовательностей c UniProt ID:
- GCSH_RHIEC
- B2B5Y8_PODAN
- R5IES6_9FIRM
- GCSH_BURXL
- M3XG19_FELCA
(открыть в формате: FASTA, MSF)
Второе выравнивание пяти аминокислотных последовательностей c UniProt ID:
- B2V9A2_SULSY
- S8AVC0_PENO1
- G7YYL9_CLOSI
- V6KMP3_STRRC
- K9PQ22_9CYAN
(было взято с сайта Ани Карань; открыть в формате: FASTA, MSF). В начале и конце было удалено несколько негомологичных колонок.
Необходимо было выполнить несколько заданий (во всех использовалась раскраска Clustalx).

Задание 1

1а. Вертикальные блоки.

Вертикальный блок это участок множественного выравнивания, обладающий следующими свойствами: 
a. Не содержит гэпов.
b. Длина - не менее 4 колонок.
c. Первая и последняя колонки - абсолютно консервативны или абсолютно функционально консервативны.
d. Процент абсолютно консервативных колонок больше 35%
e. Не содержит более 10  колонок, не являющихся абсолютно консервативными или абсолютно
функционально консервативными, подряд.
e. Не может быть расширен без нарушения предыдущих свойств.

Вертикальные выравнивания обозначены символами "В" в строке разметки "Blocks". Так как четких критериев определения нет, я решила не выделять блоки, в которых слишком много неконсервативных колонок. Поэтому вертикальных блоков получилось немного, и они достаточно короткие.

Первое выравнивание

Рисунок 1. Вертикальные блоки в первом выравнивании (обозначены B)

Второе выравнивание

Рисунок 2. Вертикальные блоки во втором выравнивании (обозначены B)

На изображениях видно, что количество блоков во втором выравнивании оказалось больше. Это логично, так как в первом выравнивании использовались последовательности, не сильно гомологичные друг другу. Вероятно, гомологичность между последовательностями второго выравнивания была больше.

1b. Один блок из части последовательностей.
Из части последовательностей был выделен вертикальный блок. Критерием служили предположительная гомологичность остатков в столбцах блока и негомологичность им остатков остальных последовательностей. В обоих случаях блоки обозначены символами "Н" в строке разметки "Blocks".

Первое выравнивание

Рисунок 3. Вертикальный блок из части последовательностей

На рис.3 видно, что для первых четырех последовательностей консервативных колонок оказалось намного больше, в то время как у последней последовательности в этих колонках оказываются аминокислотные остатки (предположительно) негомологичные. Таким образом, первые четыре последовательности были объединены в группу. Затем для этой группы были найдены свои вертикальные блоки (обозначены Н). Одна из гэповых колонок была скрыта (на рисунке обозначена синей стрелочкой), т.к. у все четырех последовательностей в ней находились гэпы (очевидно, это связано с последней наименее гомологичной последовательностью; без нее в выравнивании в этих позициях скорее всего гэпо бы не было). Когда же колонка была скрыта, стал виден довольно большой вертикальны блок.
Видно, что вертикальных блоков в этой группе (6) намного больше, чем для всех пяти последовательностей (2), что говорит в пользу гомологичности первых четырех последовательностей и негомологичности им последней.

Второе выравнивание

Рисунок 4. Вертикальный блок из части последовательностей

Прим.: очередность последовательностей была изменена.
На рис.4 видно, что если рассматривать только последовательности с UniProt ID G7YYL9_CLOSI, B2V9A2_SULSY и V6KMP3_STRRC, можно заметить, что у них количество абсолютно консервативных и функционально консервативных колонок очень велико. В то же время у других последовательностей в некоторых из этих позиций могут находиться (предположительно) негомологичные аминокислотные остатки. Однако хочу отметить, что многие колонки консервативны для всех последовательностей (например, колонки №5, 20, 21, 22 и др.). Тем не менее при добавлении в группу последовательностей с ID K9PQ22_9CYAN и S8AVC0_PENO1 число консервативных колонок уменьшалось. Это вызвано тем, что в некоторых колонках (например, в колонках №3, 4, 14 и др.) стоят аминокислотные остатки, предположительно негомологичные тем, что стоят в четырех последовательностях в составе выделенной группы. Так, при добавлении этих последовательностей в группу, несмотря на сохранение некоторого количества консервативных колонок, их общее количество уменьшается.
Таким образом, указанные выше последовательности были объединены в группу и для них были найдены вертикальные блоки (обозначены Н). В итоге было найдено 6 блоков (ср. с 7 блоками для всех последовательностей). При этом блоки, которые для всех последовательностей были разделены (неконсервативными или геповыми колонками), в этот раз могли образовать один блок.
В этот раз результаты противоположные: искать вертикальные блоки для части последовательностей было легче для первого выравнивания. Я объясню это тем, что во втором выравнивании блоков для всех последовательностей было больше, чем в первом выравнивании, в связи с чем поиск сходств для отдельной группы последовательностей и различий этой группы с остальными последовательностями проходил труднее.

Задание 2

2a. Статистика для блока.
В этом задании необходимо было посчитать число и процент абсолютно консервативных и абсолютно функционально консервативных позиций. Для первого выравнивания использовался блок из задания 1b, а для второго — один из вертикальных блоков из задания 1а.
Использовался следующий список групп аминокислотных остатков (на основании данных о частотах мутаций):

KR
ST
LIVM
FYW
DN
EQ
P
G
A
H
С


Первое выравнивание

Анализируемый блок
Число Процент
Абсолютно консервативные позиции 5 45%
Абсолютно функционально консервативные позиции 1 9%
Всего позиций 11 -


Второе выравнивание

Анализируемый блок
Число Процент
Абсолютно консервативные позиции 8 67%
Абсолютно функционально консервативные позиции 3 25%
Всего позиций 12 -

Процент консервативных колонок для блока из второго выравнивания оказался больше, хотя сам блок включает больше колонок. Несмотря на то, что это анализ лишь отдельно взятых блоков, в целом посмотрев на количество консервативных колонок в блоках обоих выравниваний, можно опять сделать вывод о том, что последовательности во втором выравнивании более гомологичны друг другу.

2b. Число гепов в промежуточном участке. Для каждого выравнивания был выбран самый длинный участок выравнивания, не входящий в состав блоков. Для этих участков были посчитаны число и процент позиций с гепами. В обоих случаях участки обозначены символами "Х" в строке разметки "Blocks".

Первое выравнивание

Рисунок 5. Промежуточный участок (обозначен Х)


Анализируемый участок
Число Процент
Гепы 26 67%
Всего позиций 39 -

Второе выравнивание

Рисунок 6. Промежуточный участок (обозначен Х)


Анализируемый участок
Число Процент
Гепы 2 20%
Всего позиций 10 -

Попробуем проанализировать результаты. Во-первых, во втором выравнивании промежуточных участков намного меньше. Во-вторых, в анализируемом промежуточном участке второго выравнивания процент гепов оказался намного меньше, чем в промежуточном участке первого выравнивания (ср.: 20% и 67% соответственно). Это еще одно свидетельство в пользу большего родства последовательностей из второго выравнивания. Таким образом, все результаты подтверждают один и тот же вывод.
Скачать проект Jalview по заданиям 1,2:
первое выравнивание; второе выравнивание,

Примечание: в окне со всеми найденными блоками там, где блоки для части последовательностей и для всех последовательностей перекрывались, колонки обозначены "В". В том же окне в первом выравнивании гэповая колонка (о которой говорится в задании 1b), обозначена "-" в строке разметки "Blocks".

Задания 4, 5

Консенсусная последовательность и LOGO. Sequence logo (лого последовательности) — графическое представление выравнивания аминокислотной или нуклеотидной последовательности, разработанное Томом Шнайдером (англ. Tom Schneider) и Майком Стивенсом (англ. Mike Stephens). Каждый логотип состоит из "стопок" символов (одна для каждой позиции в выравнивании). Общая высота "стопки" указывает на процент идентичности аминокислотных остатков в этой позиции в выравнивании. Высота отдельных символов указывает на относительную частоту встречаемости каждого аминокислотного остатка или нуклеотида в этой позиции. В целом sequense logo предоставляет более полную и точную информацию об участках выравнивания, чем, например, консенсусная последовательность[1].
Использовался блок из первого выравнивания, полученный в задании 1b (он же анализировался в задании 2а). Консенсус был скопирован из JalView:

>Consensus/83-93 Percentage Identity Consensus 
SVKAASDIYAP 
Промежуточный участок Для получения LOGO был использован сервис http://weblogo.threeplusone.com/ Синим цветом обозначены гидрофильные аминокислоты, чёрным — гидрофобные, зелёным — нейтральные.
Рисунок 7. LOGO анализируемого блока

Паттерн выбранного блока: S-V-K-[AS]-[AV]-[SA]-D-[TV]-[YMN]-[ACS]-P.

Задание 6

Выравнивание с заведомо негомологичной последовательностью. Использовалось первое выравнивание и последовательность с UniProt ID Q9J0G5. Это последовательность одного из белков ВИЧ. Очевидно, она негомологична остальным пяти последовательностям. Однако мне удалось "выровнять" все шесть последовательностей так, что в найденных в задании 1а блоках сохранились консервативные колонки. Очевидно, наличие этих консервативных колонок в блоках не свидетельствует о гомологичности. Думаю, если бы выравнивание изначально имело больше блоков и, соответственно, консервативных колонок, так удачно выровнять негомологичную последовательность вообще бы не получилось.
На рис.8 показано полученное "выравнивание" (открыть в новой вкладке: FASTA, MSF).

Таким образом, в первом блоке были найдены одна абсолютно консервативная колонка (№41) и две абсолютно функционально консервативные колонки (№ 34 и 39), что составляет 38% от блока. Во втором блоке только одна консервативная колонка, что составляет 25%. Изначально проценты были те же, что говорит о том, что всегда нужно тщательно анализировать полученные программой результаты, т.к. она этого делать не может.

Рисунок 8. Выравнивание с заведомо негомологичной последовательностью


Задание 7

Выравнивание заведомо негомологичных последовательностей. Для выравнивания использовались 5 негомологичных последовательностей (открыть выравнивание в формате: FASTA, MSF). Данные о последовательностях приведены в таблице 1. Видно, что первые два белка оба являются оксидоредуктазами, но у их последовательностей все равно мало общего, так что это не увеличило количество найденных блоков. Остальные белки отличаются по функциям и группам, к которым принадлежат.

Таблица 1. Основная информация о последовательностях
Uniprot ID Название белка Длина, а.о. Молекулярная масса, Da Функция Организм
1 A0A0Q8WZK7_9ACTN Оксидоредуктаза / Oxidoreductase 646 67,836 Взаимодействие с ФАД, катализ ОВР Бактерия Nocardioides sp.
2 R7B410_9ACTN НАДН:флавин оксидоредуктаза / NADH:flavin oxidoreductase 646 70,115 Взаимодействие с ФМН, катализ ОВР Бактерия Eggerthella sp.
3 A0A0Q7E1Z7_9CAUL Пептидаза / Peptidase 646 69,304 Катализ гидролиза пептидных связей Бактерия Brevundimonas sp.
4 A0A0D5NDX4_GEOSN Цитохром С / Cytochrome C 646 69,950 Перенос электронов в дыхательной цепи митохондрий Бактерия Geobacter sulfurreducens
5 A0A0H2ZIU7_PSEAB Эстераза / Esterase EstA 646 69,609 Катализ гидролиза липидов и фосфолипидов Бактерия Pseudomonas aeruginosa


Во всем выравнивании удалось найти только несколько абсолютно консервативных колонок (обозначены A в строке разметки "Colons") и абсолютно функционально консервативных колонок (обозначены F).
Это неудивительно, так как вероятность совпадения в негомологичных последовательностях мала. Однако в любых случайно взятых последовательностях, конечно же, могут быть найдены с помощью "выравнивания" какие-то консервативные позиции, которые, тем не менее не говорят ни о какой гомологии аминокислотных остатков, так как не находятся внутри достоверного участка выравнивания.

Рисунок 9. Выравнивание заведомо негомологичных последовательностей


Примечания:

[1] WebLogo.
Вся остальная информация о последовательностях взята с сайта UniProt.