Мотивы в белках

Поиск консервативных мотивов в выравнивании

Из PFam я выбрала домен PF00078 - обратную транскриптазу (она же рестриктаза и она же РНК-зависимая ДНК-полимераза). Выравнивание seed состоит из 69 последовательностей. Посмотрела последовательности на схожесть: при redundance threshold 80% ни одна последовательность не выделилась (а первая выделяется при 70%), поэтому я решила оставить все последовательности и работать с ними дальше.

При окрашивании Clustal и уровне IC=100% выделяются 7 консервативных позиций, из которых только 2 сближены (стоят рядом, 205-206 позиции, D). Но при понижении IC наиболее консервативный блок находится вокруг другой позиции - 159G. Там и буду искать мотив.

Выравнивание на мотивы оказалось довольно бедным. Я выделила мотив, который оказался по описанию не очень консервативным (много допущений любых букв):

.[PR][QF]G...[GSA]P.

X-[PR]-[QF]-G-X(3)-[GSA]-P-X

Этот мотив найден в 51 последовательности (из 69), все выравнивания друг под другом. Но я бы не назвала этот мотив очень консервативынм (5 позиций из 10 в мотиве предполагают любую букву, четко консервативны 2 позиции - G и P).

Полученный мотив я загрузила в ScanProsite. Так как мы установили "Retrieve complete sequences: V", то максимум показываемых последовательностей 1000. По результатам работы. Результаты работы Prosite: 1095 hits in 1000 sequences. То есть если выровнять последовательности мотив точно не находится только друг под другом, так как в 1000 последовательностях он встречается 1095 раз. Он точно не консервативный. Полученные последовательности в fasta формате я загрузила в JalView, выровняла с помощью Mafft. Выравнивание получилось ужасающим :))) Мотив нашелся 1095 раз (как и было уже сказано), но смотреть на это больно. Пример на фото. Я бы сказала, что мотив выбран слишком размыто, чтобы говорить о консервативности. (В MyHits нашлось 1535 находок. Бегло их просмотрев, могу сказать, что все белки очень разрознены по классам).

Рис 1: Выравнивание Mafft последовательностей из ScanProsite. Само выравнивание здесь по ссылке.

Мотив для филогенетической клады

С помощью NJ в JalView я построила филогенетическое дерево. Дерево и выбранную ветвь можно увидеть на Рис 2.

Рис 2: Дерево по выравниванию seed PF00078. Выбранная клада выделена зеленым. В нее входит 11 последовательностей.

Покарсила по Clustal, даже при IC=100% получилось много консервативных позиций. Но самым симпатичным мне показался следующий мотив на Рис 3.

Рис 3: Мотив, который я описала следующим образом: G[CV][VP]QG[SGA].[GLS][GS]P.[IL]

Мне кажется я задала мотив консервативно. В кладе он встречается во всех последовательностях, всего 11 раз, только друг под другом. В общем выравнивании seed для домена PF00078 мотив тоже находится 11 раз, то есть исключительно в доменах клады. Это значит, что мотив специфичен для нее.

PSI-BLAST

Случайно выбрала AC: O05886. Это белок, выделенный из Mycobacterium tuberculosis H37Rv, это фактор активации гибернации рибосом (переход рибосом в состояние очень сниженной активности, что встречается у бактерий в условиях стресса). Запуск PSI-BLAST по базе Swiss-Prot. Результаты в таблице.

Номер итерации Число находок выше порога AC худшей находки выше порога E-value худшей находки выше порога AC лучшей находки ниже порога E-value лучшей находки ниже порога
1 20 P17161.1 0.003 P17160.1 0.006
2 27 P71346.3 1e-11 - -
3 28 P9WMA8.1 0.002 - -
4 28 P9WMA8.1 8e-20 - -
5 28 P9WMA8.1 7e-20 - -

Уже на второй итерации PSI-BLAST нет результатов с e-value ниже установленного порога. К тому же, после 3 итераций количество находок не увеличивалось. Это говорит о том, что семейство достаточно обособлено.