Выравнивания

в Jalview

СеместрыВторой семестр • Выравнивания в Jalview

Выравнивание последовательностей — биоинформатический метод, основанный на размещении двух или более последовательностей мономеров ДНК, РНК или белков друг под другом таким образом, чтобы легко увидеть сходные участки в этих последовательностях. Сходство первичных структур двух молекул может отражать их функциональные, структурные или эволюционные взаимосвязи[1].

Jalview — небольшая программа для работы с выравниваниями последовательностей (в том числе множественными). Дистрибутив можно скачать с официального сайта.

Этот практикум я выполнял, работая с выравниваниями из файла aln_63.1.fa. На рис.1 представлено выбранное выравнивание полностью.

Рисунок 1. Полное выравнивание.

Гомологичные участки

Скачать проект

Я искал участки, которые, вероятно, являются гомологичными для всех последовательностей из выравнивания. Критерием этого является большая консервативность аминокислот на протяжении всего участка. На рис.2 представлен первый участок в раскрасках BLOSUM62 и ClustalX (при наведении мыши). Аналогично для второго участка на рис.3. Для раскрасок был выставлен порог идентичности 70%. Чем интенсивнее окраска, тем консервативнее аминокислота в данной позиции.

Рисунок 2. Первый гомологичный участок в раскраске BLOSUM62. При наведении мыши раскраска меняется на ClustalX.

Рисунок 3. Второй гомологичный участок в раскраске BLOSUM62. При наведении мыши раскраска меняется на ClustalX.

Далее мне нужно было найти участок, предположительно гомологичный в двух последовательностях и не гомологичный (опять же предположительно) по отношению к остальным. Для этого я воспользовался функцией jalview по построению "деревьев" последовательностей, основываясь на их идентичности. Это дерево для моего выравнивания представлено на рис.4.

Рисунок 4. "Дерево", показывающее идентичность последовательностей в выравнивании.

Последовательности ORNAN и HETGA, предположительно, должны содержать искомый участок — они достаточно идентичны между собой, причем максимально (для этого выравнивания) отстоя дрвг от друга. Действительно, как показано на рис.5 и рис.6, на участке, совершенно неидентичном в рамках всего выравнивания, эти две последовательности достаточно идентичны (совпадает 70% аминокислотных остатков). Также, судя по дереву, достаточным сходством с ними должна обладать последовательность BRAFL.

На рис.5 сверху вниз показаны: выбранный участок, рассматриваемый для всех последовательностей, для ORNAN и HETGA, для двух предудщих вместе с BRAFL. Видно, что BRAFL содержит в некоторых идентичных для HETGA и ORNAN позициях другие аминокислотные остатки, в целом же включение его в выравнивание снижает рейтинги консервативности для позиций. Однако идентичных позиций все еще достаточно для предположения гомологии.

Рисунок 5. Участок выравнивания, на котором предположительно гомологичны последовательности ORNAN, HETGA и, с меньшей вероятностью, BRAFL. Сверху вниз: выравнивание всех последовательностей; только HETGA и ORNAN; HETGA, ORNAN и BRAFL.

Оценка консервативных позиций

Для блока из предыдущего задания (см.рис.2) я рассчитал процент и число консервативных позиций. Абсолютно консервативных позиций (окраска BLOSUM62 при пороге 100%) 12 из 28, что составляет 42,86%. Функционально консервативных (окраска ClustalX при пороге 100%) также 12 из 28 (42,86%). Консервативных на 70 и более процентов (основываясь на раскраске) позиций 17 из 28 (60,71%), функционально консервативных — 16 из 28 (57,14%). Кажется странным то, что второе число меньше первого, т.к. невозможно, чтобы в позиции, достаточно консервативной абсолютно, функциональная консервативность была меньше.

Если же подойти к этому заданию иначе и считать консервативность, в т.ч. и функциональную, вручную (то есть проверять выполняемость условия для 70% и более процентов последовательностей, в данном случае — для 8 и выше), то получаются более разумные числа, хотя их достоверность и применимость такого подхода кажутся мне сомнительными. Как бы то ни было, консервативных на 70 и более процентов позиций получается 22 из 28 (78,57%), функционально консервативных также 22.

Вертикальные блоки

Вертикальный блок выравнивания, грубо говоря, — участок выравнивания, на котором особенно часто встрчаются абсолютно консервативные позиции. На рис.6 показан участок выравнивания с тремя такими блоками. В границах этого участка встречаются гэпы — воображаемые пробелы, свидетельствующие о вставке или делеции. Всего позиций, на которых встречаются гэпы, на данном участке 12, что составляет 10,53% от длины участка.

Рисунок 6. Участок выравнивания с вертикальными блоками.

Выравнивание вручную

Скачать проект

В этом задании нужно было добавить к выравниванию новую последовательность (скачать) и выравнять ее вручную относительно участка с рис.2. Наиболее длинный консервативный фрагмент на этом участке — NSSRFGK. Его я пытался найти в новой последовательности, впрочем, безуспешно. В итоге удалось выровнять эту последовательность по колонке FGK, однако выравнивание (см. рис.7) не является убедительным. Новая последовательность не имеет ничего общего с выравниванием кроме этого фрагмента.

Рисунок 7. Выравнивание новой последовательности с участком первоначального множественного выравнивания.

Для более наглядного выполнения этого задания я взял специальное выравнивание (скачать) в качестве основы. Проведя поиск по наиболее длинному консервативному фрагменту FYP я построил выравнивание (рис.8), наглядно показывающее, что в данном случае новая последовательность на данном участке гомологична всем последовательностям выравнивания.

Рисунок 8. Выравнивание новой последовательности с участком специального множественного выравнивания.

Консенсусная последовательность и LOGO

Консенсусная последовательность — обобщенная последовательность, выведенная на основе анализа последовательностей в множественном выравнивании. Ниже представлена консенсусная последовательность для участка, рассмотренного в предыдущем задании. Также можно скачать аннотацию к этой последовательности и полный консенсус для выравнивания.

>Consensus/1-28 Percentage Identity Consensus 
ILESNPILEAFGNAKTVRNDNSSRFGKY

Одним из вариантов графического представления консервативности позиций в выравнивании является LOGO. LOGO для выбранного участка представлено на рис.8. Рисунок получен с помощью сервиса Weblogo.

Рисунок 9. LOGO для выбранного участка выравнивания.

Выравнивание заведомо негомологичных белков

Скачать проект

Я выбрал несколько белков из тех, с которыми работают мои одногруппники, для составления выравнивания. Полное выравнивание прведено на рис.10. Я попытался найти более-менее сходные участки, они приведены на рис.11 и рис.12.

Рисунок 10. Полное выравнивание заведомо негомологичных последовательностей.

Рисунок 11. Один из предпологаемо "гомологичных" участков.

Рисунок 12. Второй "гомологичный" участок.

На этих участках наблюдается сходство трех-четырех последовательностей в каждой позиции, нет последовательности, явно выбивающейся из этого наблюдения. Гораздо реже встречаются позиции, консервативные в 5 и 6 последовательностях. Абсолютно консервативные позиции единичны. Внешне может сложиться впечатление, что этого достаточно для предположения гомологии, однако "сходство" распределено достаточно случайно, нет даже двух последовательностей, у которых наблюдалось бы сходство фрагментов одинаковой длины на нескольких участках. Скорее всего, позиции с достаточно большой консервативностью появились из-за того, что выравнивание было сделано "искусственно" — алгоритм, считая последовательности сколько-нибудь гомологичными, специально пытался находить и подгонять сколько-нибудь сходные позиции. Об этом, в частности, свидетельствует большое число гэпов на протяжении всего белка.

[1] Mount DM. Bioinformatics: Sequence and Genome Analysis. — 2nd. — Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY., 2004. — ISBN 0-87969-608-7