На главную

Практикум 12

Сравнение разных способов выравнивания

Я выравнивала последовательности аргиназ I человека (ID - ARGI1_HUMAN) и гриба Schizosaccharomyces pombe (ID - ARGI1_SCHPO). Выравнивания строились тремя разными способами: глобальное при помощи программы needle; локальное при помощи программы water; и множественное при помощи программы muscle. Для множественных выравниваний в выборку были добавлены последовательности аргиназ I крысы (ID - ARGI1_RAT) и шпорцевой лягушки Xenopus laevis (ID - ARGI1_XENLA). Затем все полученные выравнивания были выровнены между собой при помощи программы muscle (из множественных выравниваний при этом были удалены все дополнительные последовательности: ARGI1_XENLA и ARGI1_RAT). В получившемся при этом выравнивании при помощи JalView были сгруппированы выравнивания полученные одним и тем же способом и внутри группы окрашены по проценту идентичности. Здесь можно посмотреть, что получилось. А здесь можно сравнить полученные выравнивания с исходным множественным выравниванием

Отличия между выравниваниями

Отличие 1

Согласно множественному выравниванию все аргиназы имеют последовательность начинающуюся с MS или MA. За этим общим участком из двух аминокислот следует (опять же согласно множественному выравниванию) событие вставки из 17 аминокислот в последовательность белка из гриба (или делеции этого же участка в остальных последовательностях). Поэтому выравнивание построенное при помощи water, как программы для построения локальных выравниваний, игнорирует начало белков человека и гриба и начинает выравнивать белки только с того момента как заканчивается вышеупомянутый и отчетливо видный на множественном выравнивании (с участием всех 4 последовательностей) индель. Интересно, что место которое muscle видит как окончание инделя (то есть начало участка общей гомологии белков) является точным местом начала выравнивания белков при помощи water. Needle же, как программа для построения глобальных выравниваний, вынуждена выравнивать последовательности целиком, и не имея информации о последовательностях большего числа гомологичных белков (как имеет ее muscle) выравнивает участок начала человеческой аргиназы длиной в 4 а.к. (тот самый который содержит MS иди MA и имеется в начале всех рассматриваемых мной гомологичных белков) с похожим участком в "инделе", что скорее всего является неверным.

Отличие 2

Бросается в глаза то, что в 76 LEU белка ARGI1_SCHPO выравнивается с 55 PHE аргиназы человека программами water и needle, а в выравнивании полученном из множественного, тот же самый LEU 76 из белка гриба не имеет гомологичного остатка в человеческом белке и "выравнивается с одиночным гэпом". Взглянув на полное множественое выравнивание (со всеми 4 белками) мы замечаем, что LEU 76 из дрожжей не имеет гомологичных остатков ни в одном из трех оставшихся белков (при этом этот лейцин окружен участками довольно хорошо просматриваемой гомологии), что позволяет предположить нам событие вставки одиночной аминокислоты (или потери ее у как минимум трех таксонов). Это значит, что скорее всего (если полученное нами множественное выравнивание достаточно хорошо; улучшить его можно добавив еще белков в рассмотрение) 76 лейцин из аргиназы дрожжей не может быть выровнен ни с одной из аминокислот белка человека, но программы water и needle "этого не знают".

Отличие 3

Ввиду того, что белок ARGI1_SCHPO по всей видимости (при взгляде на полное множественное выравнивание) является довольно эволюционно отдаленным от аргиназ животных, программы needle и water часто находят более оптимальное выравнивание, которое при этом скорее всего является биологически неверным. Так например эти программы не находят гомологии между участками с 49 по 53 аминокислоту в белке человека и участком с 65 по 69 аминокислоту в белке гриба, которую устанавливает muscle. Вследствие этого в выравниваниях полученных при помощи water и needle имеются два довольно продолжительных (5 и 3 гэпа) инделя (65-69 аминокислоты белка гриба и 63-65 аминокислоты белка человека), когда в этом же регионе выравнивания полученного при помощи muscle имеется два одиночных гэпа (которые скорее всего являются следствием правильных выравниваний так как согласно данным множественных выравниваний аминокислоты L и A в позициях 76 и 83 соответственно белка ARGI1_SCHPO не имеют гомологичных себе в других белках).

Таким образом основными отличиями между выравниваниями являются:

Длина выравниваний. Самая маленькая длина выравниваний у water, так как эта программа строит локальные выравнивания, у needle и muscle в данном случае длина выравниваний получилась одинаковой и наибольшей.

Количество длина и локализация инделей. У water и needle локализация и длина инделей расположенных на общих участках всегда одинаковая, а выравнивания полученные при помощи muscle от них зачастую отличаются, как было описано выше.

Из всех этих способов выравниваний я больше доверяю тому, который получен из множественных выравниваний, так как он обрабатывает больше входной информации о возможных вариациях в гомологичных последовательностях и соответственно представляет выравнивание которое лучше всего отражает эволюционный процесс.

Построение трехмерного графа для глобального выравнивания с афинными штрафами за индели

Граф представляет собой три параллельные горизонтальные плоскости. Средняя из этих плоскостей представляет собой прямоугольник, разделенный вертикальными и горизонтальными линиями согласно длинам выравниваемых последовательностей. Плоскость лежащая выше средней разделена вертикальными линиями с узлами находящимися над точками пересечения вертикальных и горизонтальных линий средней плоскости (у верхней и нижней плоскостей продемонстрирован только небольшой участок). Плоскость, располагающаяся ниже средней, аналогично верхней разделена горизонтальными линиями на которых располагаются узлы (узлы, аналогично, находятся под узлами пересечения горизонтальных и вертикальных линий средней плоскости). При этом передвижение между вершинами графа может осуществляться только вниз и вправо, передвигаться вдоль вертикальных линий можно только по верхней плоскости, вдоль горизонтальных линий только по нижней плоскости, а по диагонали от узла к узлу только по средней плоскости (и такое перемещение означает прибавление соответствующего числа из матрицы аминокислотных замен). Перемещение из средней плоскости в верхнюю или нижнюю и единичный шаг (вниз или вправо соответственно) караются в сумме штрафом - g штраф за открытие инделя, дальнейшее перемещение по этим плоскостям карается штрафом h (за шаг из узла в узел) - штраф за удлиннение инделя. (Перемещение в среднюю плоскость из верхней или нижней ничего не стоит) (Понятно, что в узлы располагающиеся под верхней и над левой границами плоскости можно попасть единственным образом, двигаясь по нижней или верхней плоскостям соответвенно.) Теперь для каждой тройки узлов (над в и под средней плоскостью, помимо описанных в скобках случаев) необходимо рассчитать максимальное значение и запомнить при перемещении внутри какой плоскости оно было получено, а затем, заполнив всю матрицу выбрать максимальное значение для матрицы и проследить "путь выравнивания".

Построение графа для локального выравнивания с линейными штрафами за гэпы

Граф для локального выравнивания с линейными штрафами за гэпы (в данном случае штраф - 4) представляет собой плоскость аналогичную средней плоскости из предыдущего задания, но теперь перемещение вдоль линий и по диагонали от узла к узлу осуществляется внутри одной плоскости. Перемещение вдоль линий так же карается штрафом за гэп, а перемещение по диагонали так же означает прибавление соответствующего числа из матрицы аминокислотных замен. Отличие состоит лишь в том, что если значение в узле получается отрицательным, то вместо него в узде записывается 0. таким образом в узлах верхней и левой границ графа стоят 0, а в нижних правых узлах клеточек вехнегои левого рядов стоят либо 0 либо положительные значения из матриц аминокислотных замен для соответствующих аминокислот. Далее для каждого узла находящегося на пересечении i горизонтальной линии и j вертикальной линии (Uij) максимальное значение выбирается из: 0, U(i-1,j)-4, U(i,j-1)-4, U(i-1,j-1)+M(i-1,j-1), где M(i,j) это значение из матрицы аминокислотных замен для i и j аминокислот. После нахождения значений во всех узлах выбирается узел с максимальным значением и реконструируется путь которым это значение было получено, при этом путь заканчивается в узле со значением 0.

В каждой ячейке получившейся таблицы записаны максимальные значения для нижнего правого узла ячейки. Для построения этой таблицы использовалась матрица аминокислотных замен BLOSUM62, для буквы "О" использовались все значения для лизина (К).

На данном орграфе продемонстрированы стрелочки, указывающие путь, которым было получено выравнивание, а так же подписаны веса стрелочек (итоговый вес выравнивания - 31).

Отношение правдоподобия

На лекцию Е.С. Шилова "Молекулярная эволюция защитных систем", проходившую в кабинете 10*10 пришли 70 биологов (Б, q(Б)=0,7) и 30 биоинформатиков (Ф, q(Ф)=0,3). Учитывая, что второй человек в записи пары подсаживается вторым, а следовательно и определяет проявление дружелюбности или враждебности подсчитаем количество пар в кабинете. λ=100

Тип пары Наблюдаемое число пар (N) Наблюдаемая частота пар (P=N/90) Ожидаемая частота пар (q1*q2) Ожидаемое число пар (e=90*q1*q2) P/(q1*q2) log(10)(P/(q1*q2)) λ*log(10)(P/(q1*q2))
Б-Б 54 0.6 0.490 44.1 1.224 0.088 9
Б-Ф 10 0.111 0.210 18.9 0.529 -0.276 -28
Ф-Б 8 0.089 0.21 18.9 0.424 -0.373 -37
Ф-Ф 18 0.2 0.09 8.1 2.222 0.347 35

Таким образом наибольшую дружелюбность проявляют биоинформатики сидя рядом с представителяи своего факультета. Биологи же гораздо менее дружелюбны по отношению к своим, но этот уровень дружелюбия все еще имеет положительный вес. Наиболее недружелюбны биологи по отношению к биоинформатикам, биоинформатики же менее недружелюбны по отношению к биологам. P.S. в данном случае брался десятичный логарифм отношения правдоподобия, но из него легко можно сделать двоичный, поделив на log(10)(2)=0.301


© Кристина Перевощикова, 2017