Практикум 8

Отчет по практикуму 8

Задание 1. Консервативный мотив в выравнивании последовательностей гомологичных белков

Для работы я выбрал семейство цитохрома c (PF00034). Выравнивание seed для данного семейства содержит 53 последовательности, что удовлетворяет требованиям, описанным в задании. Для описания мотива был составлен следующий паттерн G.{2,3}[LIVA][FAYM].{2,4}C.{2}CH. Данный паттерн был найден в 37 из 53 последовательностей выравнивания seed.

Рис. 1. Участок выравнивания seed семейства цитохрома c,
содержащий найденный мотив G.{2,3}[LIVA][FAYM].{2,4}C.{2}CH.

При поиске данного паттерна в базе данных SwissProt на сайте MyHits было найдено 424 белковых последовательностей, описание 350 из которых содержало в описании "Cytochrome c" (вероятно, это верные находки). Оставшаяся часть выдачи содержала цитохромы bc1, гидроксилазы, трансферазы, рибосомные белки и транскрипционные факторы.

Задание 2. Мотив, специфичный для одной клады филогенетического дерева

Для выбранного набора последовательностей в выравнивании seed с помощью алгоритма Neighbour-Joining в программе Jalview было построено филогенетическое дерево. Для одной из клад был найден мотив, описываемый следующим паттерном: P[PAN]L.G . Данный паттерн не обнаруживается ни в одной из последовательностей вне данной клады и присутствует у всех её 7 представителей. Данный мотив может быть ответственен за какую-нибудь особую вторичную структуру на данном участке, т.к. для присутствующих в нем глицина и пролина характерны специфические, по сравнению с другими аминокислотами, значения разрешенных углов на картах Рамачадрана.

Рис. 2. Участок выравнивания seed одной из клад семейства цитохрома c,
содержащий другой найденный мотив P[PAN]L.G.

Задание 3. PSI-BLAST

Для выполнения задания был выбран белок с индентификатором P18196. Это белок MinC, принадлежащий E. coli, который препятствует делению, угнетая полимеризацию FtsZ и образование Z-кольца. Запуск PSI-BLAST проводился с максимальным числом последовательностей в выдаче 1000, остальные параметры были выставлены по умолчанию.

Для нахождения гомологов было применено 6 итераций PSI-BLAST, результаты которых представлены в таблице. Видно, что к 6 итерации количество находок стабилизировалось (количество находок после 5 и 6 итераций одинаково). Действительно, на 6 итерации не было новых находок, хотя E-value старых изменилось. Интересно, что пересчет E-value на 6 итерации изменил не только значения, но и порядок находок в выдаче при сортировке по E-value: если на 5 итерации худшей была находка с идентификатором Q5LPY3.1, то на 6 итерации эта находка стала предпоследней в выдаче, а худшей оказалась находка с идентификатором D8WUA4.1. На 5 и 6 итерациях E-value худшей находки было достаточно далеко от порога 0.005 (3*10^-10 и 2*10^-12 соответственно), а находки, не прошедшие порог даже не были отражены в выдаче. Это свидетельствует о хорошей обособленности найденного семейства белков.

Задание 4. TA в геноме N. gonorrhoeae

Для проверки гипотезы с сайта NCBI была взята хромосома референсного генома N. gonorrhoeae штамма TUM19854. В данном геноме, длина которого составила 2171755 п. н., нашлось 77090 димеров TA. При этом ожидаемое количество TA было оценено как 121991.84. Таким образом, в геноме наблюдается только 63,19% последовательностей TA от ожидаемого количества.