Для дальнейшей работы я выбрала семейство цитохромов p450(PF00067). Надсемейство цитохромов объединяет белки с очень низким сходством последовательностей, в связи с чем найденные в них консервативные мотивы должны быть важны для их функции.
Выравнивание оказалось бедным на мотивы, но один паттерн, сохраняющийся почти во всех последовательностях, всё же нашёлся: F-X(2)-G-X(3)-C-X-G-X(3)-A.
При запуске myHits было найдено 815 последовательностей с данным мотивом. Естественно, проанализировать их всех вручную не удалось, но при беглом взгляде на результаты среди них я заметила много белков, относящихся к цитохромовому надсемейству, и в частности к семейству цитохромов p-450. Возможно, этот мотив важен не только для исследованного семейства, но и для надсемейства.
Была выбрана группа, состоящая из 7 белков. Найденный мотив сохраняется во всех её представителях и не обнаруживается за её пределами.
Программа запускалась с белком Q7VDL2 - белок из бактерии Prochlorococcus marinus, описанный как Probable septum site-determining protein(?). Уже после второго запуска перестали появляться находки со значениями ниже порога. Это говорит о большой разнице в e-value у худшей подходящей и лучшей неподходящей находке, а значит, семейство достаточно сильно обособлено.
Номер итерации | Число находок выше порога 0.005 | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 159 | Q9K1I0.1 | 0.005 | A8GFG7.1 | 0.005 |
2 | 188 | B6JKX0.1 | 2*E-08 | NO | NO |
Длина генома Agrobacterium tumefaciens strain CFBP4996 составляет 4078890 п.н., в нём было найдено 167462 последовательности TA, в то время как ожидаемое их количество, вычисленное по формуле (число нуклеотидов в хромосоме) x (частота A в хромосоме) x (частота T в хромосоме) составляет 229124. Невооруженным взглядом видно, что различия достаточно серьёзные. P-value = z(133) - очень маленькое, а значит, гипотезу о том, что различий нет, можно отвергнуть.