Для выполнения заданий данного практикума был выбран домен Interferon alpha/beta domain c идентификатором PF00143. Интерфероны I типа (альфа, бета) относятся к более крупному суперсемейству спиральных цитокинов, в которое входят гормоны роста, интерлейкины, несколько колониестимулирующих факторов и ряд других регуляторных молекул.
Анализируемое выравнивание SEED содержало 91 последовательность, что соответствует заданным критериям (более 20, но менее 200 последовательностей). Согласно данным UniProt, этот домен присутствует примерно в 6000 белках, при этом в SwissProt аннотировано только 82 соответствующих белка, что также удовлетворяет условиям задания.
С помощью программы Jalview был осуществлен поиск консервативных мотивов (последовательности на 90% идентичные и более были убраны, однако таких не оказалось). В результате был найден один консервативный мотив с высоким IC (столбцы 163-167). На основе данного сида вероятный паттерн данного мотива может быть следующим в формате Jalview: S[DSRHP]CAW.
Выполним в Jalview (при помощи find) поиск по паттерну S[DSRHP]CAW во всем выравнивании. Было найдено 63 находки, все друг под другом (всего 91 последовательность).
Переведем паттерн в формат Prosite: S-x-C-A-W. По этому паттерну был проведен поиск на сайте ScanProsite. В результате было найдено 101 находкa в 101 последовательности. Ссылка на результаты поиска.
Построим в Jalview филогенетическое дерево методом NJ. Выберем ветвь, отрезающую одну кладу, которая состоит из 6 видов (файл с кладой). Отделим выравнивание этой клады в отдельное окно. Найдем консервативный мотив в этой кладе, его паттерн: L..YFQGI.
Выполним поиск этого мотива во всем выравнивании. Этот мотив встречается во всех последовательностях клады и не встречается больше нигде в выравнивании, значит он специфичен для данной клады.
Мной был выбран идентификатор P17265 (HPF_RHIME) - фактор инициации гибернации хромосом. Он распространён у прокариот, необходим для димеризации 70s рибосом в 100s, деактивируя их, что в последствии ингибирует трансляцию. Было запущено пять итераций PSI-BLAST (см. Рис. 1). Начиная со второй итерации находок ниже порога вообще не было, а из описаний находок понятно, что все они принадлежат семейству HPF.
Полученные результаты демонстрируют отличное качество собранного семейства гомологов: алгоритм PSI-BLAST сошёлся за 4 итерации.
Из базы данных Pfam были скачаны последовательности белков SwissProt с выбранным ранее доменом (PF00143) в формате fasta. С помощью консольной программы meme был проведен поиск de novo мотивов в этих белках:
meme proteins.fasta -o meme_results -minw 4 -maxw 10 -nmotifs 4
Всего обнаружилось 4 мотива (ссылка на выдачу), все они имеют достаточно низкий E-value и найдены в большинстве поданных на вход последовательностей.
Среди этих мотивов есть как раз тот, что был обнаружен в первом задании, на Рис. 2 представлена его лого-диаграмма, на ней хорошо видны четыре максимально консервативные позиции S_CAW. Его частота обнаружения самая большая, что подтверждает его значимость и важность для данного домена.
Предварительно сгенерировав 24 варианта перестановок GATC, методом Карлина подсчитали отношение фактической представленности к ожидаемой для каждого сайта в геноме бактерии Providencia rettgeri. Далее для вычисления контрастов была использована следующая программа:
cbcalc -s sites.txt -M -o res.tsv genome.fasta
Далее при помощи языка программирования python была построена столбчатая диаграмма:
Наблюдается очевидная недопредставленность GATC в геноме, что не удивительно учитывая, что GATC вносит нестабильность в цепь ДНК ввиду своей комплементарности самому себе. Как на представленность влияют его свойства как сайта метилирования не совсем очевидно. Но если обратить внимание на представленность CTAG, который тоже сам себе комплементарен, то можно сказать, что роль GATC как сайта метилирования имеет не последнюю роль во влиянии на его показатель CB.