Практикум 8

Задание 1. Консервативный мотив в выравнивании последовательностей гомологичных белков

Для выполнения практикума был выбран домен рибонуклеазы HII. Выравнавание seed для него содержит 11 последовательностей (доступно по ссылке ниже).

Выравнивание последовательностей seed

Далее был выбран мотив, который встречается во всех 11 последовательностях. Его паттерн: "G.DE[AV]G.G...G". С помощью функции find Jalview было найдено ровно 11 соответствий, то есть во всех последовательностях ровно в исследуемом участке, значит найденный мотив имеет достаточно большое информационное содержание для дальнейшей работы. Далее был произведен поиск данного паттерна по базе SwissProt с помощью сайта MyHits. Было обнаружено 777 находок, подавляющее большинство которых являлось рибонуклеазами HII и HIII, однако одной из находок была UPF0173 металл-зависимая протеаза. Таким образом, можно сказать, что данный мотив является важным для работы рибонуклеаз HII и HIII, возможно, это и есть ее активный центр.

Задание 2. Мотив, специфичный для одной клады филогенетического дерева

В Jalview с помощью алгоритма NJ было построено филогенетическое дерево для последовательностей из Задания 1. Далее я выбрал кладу, отделяющую RNH2_SYNY3, RNH2_MYCTU, RNH2_MAGSA, RNH2_HELPY. Для этой клады я нашел мотив с паттерном GY.T..H........G..P, при этом полностью консервативные внутри группы позиции T, H, G, P не встречаются ни в одной из последовательностей вне рассматриваемой группы. Следовательно, есть основания полагать, что данная клада определена верно.

Задание 3. PSI-BLAST

Случайным образом был выбран идентификатор P39450, который соответствует белку S-(гидроксиметил)глутатиондегидрогеназе бактерии Photobacterium damselae. Результаты работы PSI-BLAST приведены в таблице по ссылке ниже:

Таблица результатов работы PSI-BLAST

Добиться стабилизации результата не удалось, даже на пятой итерации еще прибавлялось большое количество находок. Я думаю, это связано с тем, что данное семейство гомологичных белков (находки с самым низким p-value были в основном алкогольдегидрогеназами, но другие ферменты тоже были обнаружены) слишком обширное, чтобы его можно было перебрать за 5 итераций. Кроме того, есть много дегидрогеназ, достаточно отличных от найденных, чтобы их не нашли при первых итерациях, но все таки близких для нахождения в принципе, то есть множество дегидрогеназ достаточно непрепывно друг от друга отличается, если можно так выразиться.

Задание 4. Подсчет числа TA в геноме

Для анализа была выбрана хромосома бактерии Bacillus Subtilis штамма 168. Эта хромосома имеет длину 4220000 пар нуклеотидов, а содержание букв AT на уровне 0,565. Значит ожидаемое количество сайтов TA хромосоме равно 4220000 * 0,2825 * 0,2825 = 336782 сайта. Тогда как наблюдаемое число TA сайтов в хромосоме (посчитано с помощью моего скрипта - см. практикум 6) равно 218025. Это явно меньше ожидаемого по случайным причинам числа (WolframAlpha не позволяет посчитать точное значение вероятности получить столько же или меньше сайтов по распределению Пуассона), значит на сайты TA действует отрицательное давление отбора, возможно, они по каким-то причинам чаще мутируют.