Сигналы и мотивы - 3


Задание 1.

Механизм, позволяющий клетке уничтожать попавшую в неё чужерожную ДНК, не повреждая при этом соственную, носит название рестрикции-модификации. Он осуществляется одним либо несколькими ферментами, которые обладают нуклеазной и метилтрансферазной активностью. Функцей первых является разрезание чужеродной неметилированной ДНК в определеном участке - сайте рестрикции, - вторых - метилирование собственной ДНК.

В качестве объекта для исследования в рамках данного задания был выбран штамм Dactylococcopsis salina PCC 8305, критерием выбора было достаточно большое количество генов систем рестрикции-модификации II типа (20). Эти системы характеризуются осуществлением метилтрансферазной и нуклеазной активности независимыми ферментами.Организм представляет собой мезофильную свободноживущую планктонную цианобактерию.

В разделе summary базы данных для выбранной бактерии представлены характеристики систем рестрикции-модификации, в том числе эндонуклеазы и их специфические сайты. Эта информация представлена в таблице ниже:


сайт рестрикцииферменты
GATCM.Dsa8305ORF7P, Dsa8305ORF7P
CCWWGGM.Dsa8305ORF12P
GCNGCM.Dsa8305ORF610P
GGWCCM.Dsa8305ORF749P, Dsa8305ORF749P
CCNGGM.Dsa8305ORF776P, Dsa8305ORF776P
GTMKACM.Dsa8305ORF780P, Dsa8305ORF780P
CCRYGGM.Dsa8305ORF1067P, Dsa8305ORF1067P
RGATCYM.Dsa8305ORF1285P, Dsa8305ORF1285P
RGCGCYM.Dsa8305ORF2016P
AATATTM.Dsa8305ORF2261BP
CCWGGM.Dsa8305ORF2322P
GGCCM.Dsa8305ORF2423P
CCGGM.Dsa8305ORF2604P
CGATCGM.Dsa8305ORF3149P, Dsa8305ORF3149P
CTGCAGM.Dsa8305ORFAP
Схема расположения генов систем рестрикции-модификации Dactylococcopsis salina

Для поиска недопредставленных сайтов рестрикции в геноме Dactylococcopsis salina с помощью скрипта был подготовлен список известных сайтов рестрикции. Скрипт принимает на вход предоставленный в задании файл и выбирает из 5-го столбца последовательности сайтов рестрикции, если они известны и имеют длину более 2 нуклеотидов. Полученный список принимает программа CBcalc. Я воспользовалась веб-версией (метод Карлина) и получила следующий результат. За недопредставленные я приняла сайты, для которых O/E ratio менее 0.8, и с помощью следующего скрипта я выбрала их последовательности (файл) и осуществила поиск эндонуклеаз, вносящих разрыв в эти сайты, по первоначальной таблице. В результате получился следующий список.


Задание 2.

В качестве объекта для поиска родственных последовательностей был выбран белок с идентификатором Q7VDL2 - probable septum site-determining protein MinC из Prochlorococcus marinus. Этот белок является ингибитором клеточного деления, так как нарушает формирование полярных Z-колец, которые в свою очередь служат каркасом для цитоскелетных белков. Механизм работы белка MinC заключается в том, что он дестабилизирует филаменты белка FtsZ, формирующего Z-кольца, и препятствует его полимеризации.

Для поиска гомологов данного белка был использован PSI-BLAST. Для стабилизации количества находок и установления значимой разности между худшей находкой выше порога на Е-value и лучшей находной ниже было выполнено 5 итераций, результат чего представлен в таблице ниже:


номер итерациичисло находок выше порога (0,005)идентификатор худшей находки выше порогаE-value этой находкиидентификатор лучшей находки ниже порогаE-value этой находки
1146Q9AG20.10.005A8GFG7.10.005
2188B6JKX0.17e-08нет находок-
3188Q9ZM51.12e-12A7H8E6.10.014
4189A8MHK8.10.001A7H8E6.10.013
5189A8MHK8.14e-10A7H8E6.10.009

На первой итерации запускается обычный BLAST по базе Swiss-Prot, поэтому вполне ожидаемо видеть, что Е-value худшей подходящей и лучшей не подходящей находок практически не отличаются (в данном случае, вероятно, за счет округления не отличается вообще). При втором запуске программы поиск новых белков осуществляется уже с помощью матрицы PSSM, построенной на основе полученного на первом шаге выравнивания, поэтому находки заметно лучше - самый высокий Е-value составляет 7е-08, а неудачные находки отсутствуют. На третьей итрации можно было бы остановиться, так как различие в E-value худшей подходящей и лучшей не подходящей находок значительно, а число найденных последовательностей не изменилось, но я решила проверить и запустила программу еще раз. На четвертой итерации добавляется еще одна находка и уменьшается разница Е-value граничных находок, но на 5-й итерации (и далее) наблюдаем стабилизацию.

Итого: порог на E-value менять не пришлось, стабилизировался результат по сути на третьей итерации, что говорит о том, что семейство характеризуется высокой степенью сходства и специфичности