Практикум 11
- Выбор подсемейства, содержащего домен
- Cоздание материалов для построения HMM-профиля, а также положительного и отрицательного контролей
- Построение и проверка HMM профиля.
Я выбрала домен BRCT (BRCA1 C Terminus domain). Этот домен, как правило, содержится в белках, участвующих в ответе на повреждения ДНК в момент чекпоинта. Домен назван в честь C-концевого домена белка BRCA1 (этот белок участвует в репарации ДНК и является маркером рака груди).
Я выбрала двухдоменную архитектуру, сожержащую этот домен. Белков с такой архитектурой – 115.
Я выбирала так, чтобы не было больших участков белка, не покрытых вообще никаким доменом, потому что PFAM может просто не знать о том, что он там есть.
Я скачала эти 115 последовательностей, выровняла их в Jalview с помощью алгоритма MUSCLE с настройками по умолчанию.
После чего я отсортировала последовательности в выравнивании по ID и решила проверить, как домены аннотированы в них в PFAM, и какой консервативный участок выравнивания относится к какому домену.
После я посмотрела координаты N-конца первого домена и C-конца второго в выравнивании, и получились 90 и последняя, 815 колонки выравнивания (в этом выравнивании получилось, что C-конец консервативен). После я вырезала участок выравнивания с 90 по 815 колонки в новое окно, и на всякий случай перестроила выравнивание, хотя оно и не сильно изменилось после этого.
После я поискала белки, которые бы содержали крупные делеции в пределах доменов, но я таких не заметила. После чего нужно было убрать избыточные белки, то есть очень похожие, чтобы паттерн из-за перепредставленности каких-то определённых белков не замечал только их. После того как я убрала "дубликаты", похожие на 95% и больше, осталась 51 последовательность. Эти 51 последовательность я буду использовать для построения паттерна, а остальные 64 для положительного контроля:
Чтобы всё было честно, я решила взять тоже 64 последовательности с другой доменной архитектурой, но содежащие в себе BRCT, выбрав их случайным образом среди категории Reviewed.
На сервере кодомо построила и откалибровала HMM профиль, после получила выдачу для положительног и отрицательного контроля:
В итоге отобрала следующие гены:
hmm2build hmm.out nonredundant.fa hmm2calibrate --cpu=1 hmm.out hmm2search --cpu=1 hmm.out pos_control.fa > hmm_pos_control.txt hmm2search --cpu=1 hmm.out neg_control.fa > hmm_neg_control.txt
Полученные файлы для положительного и отрицательного контролей имеют такие распределения скоров:
Кажется, это не должно так выглядеть, но я не знаю, как это исправить.
В положительном контроле нашлось 40 белков, а в отрицательном – 25.