Практикум 11

Выбор подсемейства, содержащего домен

Я выбрала домен BRCT (BRCA1 C Terminus domain). Этот домен, как правило, содержится в белках, участвующих в ответе на повреждения ДНК в момент чекпоинта. Домен назван в честь C-концевого домена белка BRCA1 (этот белок участвует в репарации ДНК и является маркером рака груди).

Я выбрала двухдоменную архитектуру, сожержащую этот домен. Белков с такой архитектурой – 115.

Я выбирала так, чтобы не было больших участков белка, не покрытых вообще никаким доменом, потому что PFAM может просто не знать о том, что он там есть.

**Рис. 1** Схема выбранной двухдоменной архитектуры

Cоздание материалов для построения HMM-профиля, а также положительного и отрицательного контролей

Я скачала эти 115 последовательностей, выровняла их в Jalview с помощью алгоритма MUSCLE с настройками по умолчанию.

После чего я отсортировала последовательности в выравнивании по ID и решила проверить, как домены аннотированы в них в PFAM, и какой консервативный участок выравнивания относится к какому домену.

**Рис. 2** Доменная архитектура белка A0A022Q090, приведённая в PFAM. Интересно, что BRCT тут нарисован двумя участками в трех верхних строках. Я посмотрела такие же страницы для некоторых других белков, и у них так же, бывает и три. Насколько я поняла, **первая** "строка" аннотации взята из базы данных InterPro, **вторая** предсказана SMART, **третья** и **пятая** – из базы данных PROSITE, а **четвёртая** и **шестая** собственно из PFAM.

После я посмотрела координаты N-конца первого домена и C-конца второго в выравнивании, и получились 90 и последняя, 815 колонки выравнивания (в этом выравнивании получилось, что C-конец консервативен). После я вырезала участок выравнивания с 90 по 815 колонки в новое окно, и на всякий случай перестроила выравнивание, хотя оно и не сильно изменилось после этого.

После я поискала белки, которые бы содержали крупные делеции в пределах доменов, но я таких не заметила. После чего нужно было убрать избыточные белки, то есть очень похожие, чтобы паттерн из-за перепредставленности каких-то определённых белков не замечал только их. После того как я убрала "дубликаты", похожие на 95% и больше, осталась 51 последовательность. Эти 51 последовательность я буду использовать для построения паттерна, а остальные 64 для положительного контроля:

Чтобы всё было честно, я решила взять тоже 64 последовательности с другой доменной архитектурой, но содежащие в себе BRCT, выбрав их случайным образом среди категории Reviewed.

Построение и проверка HMM профиля.

На сервере кодомо построила и откалибровала HMM профиль, после получила выдачу для положительног и отрицательного контроля:

В итоге отобрала следующие гены:


    hmm2build hmm.out nonredundant.fa
    hmm2calibrate --cpu=1 hmm.out
    hmm2search --cpu=1 hmm.out pos_control.fa > hmm_pos_control.txt
    hmm2search --cpu=1 hmm.out neg_control.fa > hmm_neg_control.txt

Полученные файлы для положительного и отрицательного контролей имеют такие распределения скоров:

Кажется, это не должно так выглядеть, но я не знаю, как это исправить.

В положительном контроле нашлось 40 белков, а в отрицательном – 25.

**Рис. 3** Скоры положительного и отрицательного контроля