Практикум 11

  1. Выбор подсемейства, содержащего домен
  2. Я выбрала домен BRCT (BRCA1 C Terminus domain). Этот домен, как правило, содержится в белках, участвующих в ответе на повреждения ДНК в момент чекпоинта. Домен назван в честь C-концевого домена белка BRCA1 (этот белок участвует в репарации ДНК и является маркером рака груди).

    Я выбрала двухдоменную архитектуру, сожержащую этот домен. Белков с такой архитектурой – 115.

    Я выбирала так, чтобы не было больших участков белка, не покрытых вообще никаким доменом, потому что PFAM может просто не знать о том, что он там есть.

    Рис. 1 Схема выбранной двухдоменной архитектуры

  3. Cоздание материалов для построения HMM-профиля, а также положительного и отрицательного контролей
  4. Я скачала эти 115 последовательностей, выровняла их в Jalview с помощью алгоритма MUSCLE с настройками по умолчанию.

    После чего я отсортировала последовательности в выравнивании по ID и решила проверить, как домены аннотированы в них в PFAM, и какой консервативный участок выравнивания относится к какому домену.

    Рис. 2 Доменная архитектура белка A0A022Q090, приведённая в PFAM. Интересно, что BRCT тут нарисован двумя участками в трех верхних строках. Я посмотрела такие же страницы для некоторых других белков, и у них так же, бывает и три. Насколько я поняла, первая "строка" аннотации взята из базы данных InterPro, вторая предсказана SMART, третья и пятая – из базы данных PROSITE, а четвёртая и шестая собственно из PFAM.

    После я посмотрела координаты N-конца первого домена и C-конца второго в выравнивании, и получились 90 и последняя, 815 колонки выравнивания (в этом выравнивании получилось, что C-конец консервативен). После я вырезала участок выравнивания с 90 по 815 колонки в новое окно, и на всякий случай перестроила выравнивание, хотя оно и не сильно изменилось после этого.

    После я поискала белки, которые бы содержали крупные делеции в пределах доменов, но я таких не заметила. После чего нужно было убрать избыточные белки, то есть очень похожие, чтобы паттерн из-за перепредставленности каких-то определённых белков не замечал только их. После того как я убрала "дубликаты", похожие на 95% и больше, осталась 51 последовательность. Эти 51 последовательность я буду использовать для построения паттерна, а остальные 64 для положительного контроля:

    Чтобы всё было честно, я решила взять тоже 64 последовательности с другой доменной архитектурой, но содежащие в себе BRCT, выбрав их случайным образом среди категории Reviewed.

  5. Построение и проверка HMM профиля.
  6. На сервере кодомо построила и откалибровала HMM профиль, после получила выдачу для положительног и отрицательного контроля:

    В итоге отобрала следующие гены:

    
        hmm2build hmm.out nonredundant.fa
        hmm2calibrate --cpu=1 hmm.out
        hmm2search --cpu=1 hmm.out pos_control.fa > hmm_pos_control.txt
        hmm2search --cpu=1 hmm.out neg_control.fa > hmm_neg_control.txt
    
    

    Полученные файлы для положительного и отрицательного контролей имеют такие распределения скоров:

    Кажется, это не должно так выглядеть, но я не знаю, как это исправить.

    В положительном контроле нашлось 40 белков, а в отрицательном – 25.

    Рис. 3 Скоры положительного и отрицательного контроля