Учебный сайт Сергея Пушкарева

Навигация по сайту:

Практикум 12. Дополнительный материал по выравниваниям

1. Сравнение множественных выравниваний

Программы Mafft, Muscle и Tcoffee сравнивались в выравнивании пяти последовательностей белка cas9, взятых с Uniprot: CAS9_STRP1, CAS9_FRATN, CAS9_STAAU, CAS9_ACTNH, CAS9_CAMJE. Каждой программой были построены множественные выравнивания, которые для наглядности были выравнены друг с другом с помощью muscle в порядке (Mafft 1 Muscle) 2 Tcoffee. Для визуализации результатов использовался jalview.Ссылка на проект jalview.

Отличия

  1. Обратите внимание на блок с 96 по 115 колонки. Во всех выравниваниях он имеет две абсолютно консервативные колонки: 99, 108 и 4 функционально консервативные колонки: 103, 109, 112, 115. Блок можно было бы продлить до 119 колонки, но выравнивание, выполненное Muscle (в середине), мешает это сделать. Напротив, другие алгоритмы сохранили колонки 118 и 119 гомологичными.

    Рис.1. Обсуждаемый участок выделен рамочкой. Для выравнивания первой группы последовательностей использовался Mafft, для второй — Muscle, для третьей — Tcoffee.

    Посмотрим теперь что стало с аминокислотами, которые Muscle исключил из гомологии в 118 и 119 колонках. Можно увидеть, что и тут Muscle вместо того чтобы сделать блок от 202 до 211 колонки, как его "коллеги", делает что-то непонятное.

    Рис.2. Обсуждаемый участок выделен рамочкой. Для выравнивания первой группы последовательностей использовался Mafft, для второй — Muscle, для третьей — Tcoffee.

    Вывод: Отняв аминокислоты от одного хорошего блока, Muscle не расширяет за их счет какой-нибудь другой хороший блок. Результат Mafft и Tcoffee выглядит правдоподобнее: поскольку cas9 работает с разного рода молекулами РНК, с отрицательно заряженным остовом которых нужно взаимодействовать, логично ожидать наличие по крайней мере функционально консервативных колонок положительно заряженных аминокислот. В колонках 208 и 210 (см. Рис.2) мы наблюдаем такие колонки (хотя 208 колонке мы не видим полной консервативности), что может быть аргументом в пользу правильности выравниваний Tcoffee и Mafft на рис.2 и, как следствие, на рис.1.

  2. В колонке 574 программы предлагают различные варианты замены положительно заряженной аминокислоты: в четырех последовательностях в этом месте стоит аргинин или лизин, в пятой же или глутамат (Mafft), либо аланин (Muscle), либо фенилаланин (Tcoffee). Все предлагаемые программами "мутации" этой аминокислоты приводят к утрате положительного заряда. Приходится выбирать "меньшее из трех зол". Глутамат отрицательно заряжен, фенилаланин большой и гидрофобный. Остается аланин.

    Рис.3. Обсуждаемый участок выделен рамочкой. Для выравнивания первой группы последовательностей использовался Mafft, для второй — Muscle, для третьей — Tcoffee.

    Вывод: По сравнению фенилаланином и глутаматом аланин больше подходит на роль нейтральной мутации(Что интересно, из всех трех по размеру радикала это зло правда получается наименьшим).

  3. Колонка 1338 в Tcoffee и Muscle содержит консервативный пролин, в CAS9_FRATN из выравнивания Mafft в 1338 колонке стоит аланин. Обе аминокислоты являются гидрофобными, но пролин может играть важную роль в третичной структуре белка, внося изгибы в α-спирали и принимая участие в образовании β-поворота.

    Рис.4. Для наглядности участок последовательности CAS9_FRATN(выравнивание Tcoffee) от 1349 до 1412 колонки был скрыт. Обсуждаемая колонка выделена красной рамочкой. Для выравнивания первой группы последовательностей использовался Mafft, для второй — Muscle, для третьей — Tcoffee.

    Вывод: Возможная роль пролина в структуре белка может быть аргументом к правильности выравниваний Muscle и Tcoffee.

2. Описание ориентированного графа для построения оптимального глобального выравнивания с аффинными штрафами за индели

Граф состоит из трех уровней:

  • Уровень 1, отвечающий за гэпы в первой последовательности. Горизонтальные линии.
  • Уровень 2, отвечаюший за совпадения/несовпадения букв. Диагонали.
  • Уровень 3, отвечающий за гэпы во второй последовательности. Вертикальные линии.

Источник. Трехуровневый граф глобального выравнивания с афинными штрафами.

Обозначения на рисунке:

  • δ — Значение из используемой матрицы аминокислотных замен(например BLOSUM62) для двух букв.
  • ρ — Штраф за открытие гэпа.
  • σ — Штраф за увеличение гэпа.

3. Описание ориентированного графа для построения оптимального локального выравнивания с линейными штрафами за гэпы

Правила для заполнения матрицы локального выравнивания лишь немного отличаются от соотвествующих правил для глобального выравнивания: вершины с отрицательным score мы заменяем на нули.

Источник. Правила для заполнения матрицы весов.

Это позволяет начинать выравнивание из любой вершины графа и заканчивать так же в любой вершине. Заполнива матрицу для score, находится вершина с наибольшим score и от нее прокладывается оптимальное выравнивание.

Источник. Пример матрицы локального выравнивания. Вершина с наибольшим весом обведена красным.
Источник. Локальное выравнивание, соотвествующее матрице выше.

4. Матрица "весов доброжелательности" полов на основе фотографии.

Источник. Анализировалось только первые пять ряда студентов среднего ряда.

Ниже приведена таблица половой принадлежности студентов первых пяти рядов. Пустые места обозначены как "-".

Ряд (считая от лектора) Номер места (слева направо с точки зрения лектора)
1 2 3 4 5 6 7 8 9 10 11 12
1 - M M Ж М Ж Ж М Ж - - -
2 М Ж Ж Ж Ж Ж М М Ж Ж Ж -
3 Ж - Ж М Ж - - Ж М - Ж Ж
4 Ж Ж М М Ж М Ж Ж Ж Ж Ж Ж
5 - М - Ж Ж Ж Ж Ж М М Ж Ж

Всего студентов,у которых есть хотя бы один сосед, в первых пяти рядах 47: 14 мужчин и 33 женщины. Пар ММ 4, ЖЖ 19, ЖМ 8, МЖ 9. Суммарно при такой рассадке возможно всего 40 пар.
Вероятность, что случайное место займет мужчина = 1447 = 0.3(У женщин 33⁄47 = 0.7).

Расчеты весов дружелюбности.
Пара Частоста пары Отношение правдоподобия I log(I)
ММ 0.10 1.11 0.05
ЖЖ 0.475 0.97 -0.01
ЖМ 0.20 0.95 -0.02
МЖ 0.225 1.07 0.03

В итоге матрица весов дружелюбности при λ=100 выглядит следующим образом:

СлеваСправа М Ж Сумма
М 5 3 8
Ж -2 -1 -3
Сумма 3 2

Из таблицы можно сделать вывод, что мужчины предпочитают сидеть слева от женщин (смотря со стороны лектора), а также то, что пар ЖЖ чуть меньше, чем могло бы быть статистически, а пар ММ, наоборот, больше. В целом, складывая веса пар МЖ и ЖМ и получая положительное число, можно заключить, что полы дружелюбны друг к другу. Ура.

© Пушкарев Сергей, 2018