Для работы был выбран N-конец R-белка рестриктазы I типа (HSDR_N) семейства HSDR_N_2 (PF13588). Это семейство состоит из ряда N-концевых участков, обнаруженных в белках рестриктазы R типа I (HSDR).
Выравнивание seed для этого семейства включает в себя 30 последовательностей.
Был найден консервативный мотив EE..RQ.{5}L, который встречается в 25 последовательностях. На рисунке 1 представлен паттерн в выравнивании.
Рис. 1 Паттерн в выравнивании
Стоит отметить, что во 2-ой позиции паттерна у всех последовательностей стоит глутаминовая кислота (Е) кроме двух. У одной - пролин (P), который по свойствам не похож на глутаминовую кислоту, а у другой - аспарагиновая кислота (D), которая как раз похожа по свойствам на Е и тоже является отрицательно заряженной.
В третьей позиции паттерна такая же ситуация - у одной последовательности стоит D (у всех остальных - Е).
В 7-ой позиции почти у всех последовательностей стоит незаряженный глутамин (Q). У одной - лизин (K), который является положительно заряженной аминокислотой, но имеет еще одну NH2 группу как и глутамин. У другой последовательности - глутаминовая кислота, которая похожа на глутамин, но имеет отрицательный заряд.
В последней позиции везде стоит лейцин (L), кроме последовательностей, у который стоят изолейцин (I) и фенилаланин (F). Изолейцин похож на лейцин, а вот фенилаланин совсем отличается по свойствам от лейцина из-за наличия ароматического кольца.
При проведении поиска этого мотива по базе данных SwissProt на сайте MyHits было найдено 404 находки. Многие являются гомологами HSDR_N или белками из того же семейства HSDR_N_2 (PF13588).
Далее по выравниванию было построено дерево алгоритмом UPGMA (рис. 2).
Рис. 2 Дерево, построенное на основе выравнивания (группы отличаются цветом)
Был найден мотив QI..YN в 13 из 16 последовательностях для выбранной группы. Такой мотив не был обнаружен в других последовательностях, что говорит о его специфичности для выбранной клады. Паттерн в выравнивании клады представлен на рисунке 3.
Рис. 3 Паттерн в выравнивании клады
В 70-ой позиции паттерна у двух последовательностей стоят лейцин и аланин (А), которые похожи по свойствам на изолейцин (который у остальных последовательностей), так как тоже являются неполярными алифатическими аминокислотами.
Для анализа был выбран белок, который является ингибитором клеточного деления, блокирующим образование полярных Z-колец (идентификатор AC - C4Z088).
Таблица 1 Итерации PSI-BLAST
Можно заметить, что после третьей итерации число находок, проходящее порог в 0.005 E-value, перестало меняться. Также E-value худшей находки выше порога и лучшей находки ниже порога имело различие в 9 порядков, из чего можно сделать вывод о том, что семейство белков обосновано сходством их последовательностей.
Была взята референсная сборка бактерии Bacillus subtilis.
Ожидаемое число TA сайтов в геноме - 336258.
Реальное число TA сайтов в геноме - 218025.
P-value = 0.0, следовательно, такое отличие является статистически значимым.