Практикум №8

1) Поиск консервативного мотива

Для работы был выбран N-конец R-белка рестриктазы I типа (HSDR_N) семейства HSDR_N_2 (PF13588). Это семейство состоит из ряда N-концевых участков, обнаруженных в белках рестриктазы R типа I (HSDR).

Выравнивание seed для этого семейства включает в себя 30 последовательностей.

Был найден консервативный мотив EE..RQ.{5}L, который встречается в 25 последовательностях. На рисунке 1 представлен паттерн в выравнивании.

pic

Рис. 1 Паттерн в выравнивании

Стоит отметить, что во 2-ой позиции паттерна у всех последовательностей стоит глутаминовая кислота (Е) кроме двух. У одной - пролин (P), который по свойствам не похож на глутаминовую кислоту, а у другой - аспарагиновая кислота (D), которая как раз похожа по свойствам на Е и тоже является отрицательно заряженной.

В третьей позиции паттерна такая же ситуация - у одной последовательности стоит D (у всех остальных - Е).

В 7-ой позиции почти у всех последовательностей стоит незаряженный глутамин (Q). У одной - лизин (K), который является положительно заряженной аминокислотой, но имеет еще одну NH2 группу как и глутамин. У другой последовательности - глутаминовая кислота, которая похожа на глутамин, но имеет отрицательный заряд.

В последней позиции везде стоит лейцин (L), кроме последовательностей, у который стоят изолейцин (I) и фенилаланин (F). Изолейцин похож на лейцин, а вот фенилаланин совсем отличается по свойствам от лейцина из-за наличия ароматического кольца.

При проведении поиска этого мотива по базе данных SwissProt на сайте MyHits было найдено 404 находки. Многие являются гомологами HSDR_N или белками из того же семейства HSDR_N_2 (PF13588).

2) Поиск мотива специфичного для клады

Далее по выравниванию было построено дерево алгоритмом UPGMA (рис. 2).

pic

Рис. 2 Дерево, построенное на основе выравнивания (группы отличаются цветом)

Был найден мотив QI..YN в 13 из 16 последовательностях для выбранной группы. Такой мотив не был обнаружен в других последовательностях, что говорит о его специфичности для выбранной клады. Паттерн в выравнивании клады представлен на рисунке 3.

pic

Рис. 3 Паттерн в выравнивании клады

В 70-ой позиции паттерна у двух последовательностей стоят лейцин и аланин (А), которые похожи по свойствам на изолейцин (который у остальных последовательностей), так как тоже являются неполярными алифатическими аминокислотами.

3) PSI-BLAST

Для анализа был выбран белок, который является ингибитором клеточного деления, блокирующим образование полярных Z-колец (идентификатор AC - C4Z088).

Таблица 1 Итерации PSI-BLAST

pic

Можно заметить, что после третьей итерации число находок, проходящее порог в 0.005 E-value, перестало меняться. Также E-value худшей находки выше порога и лучшей находки ниже порога имело различие в 9 порядков, из чего можно сделать вывод о том, что семейство белков обосновано сходством их последовательностей.

4) Проверка числа ТА в бактериальном геноме

Была взята референсная сборка бактерии Bacillus subtilis.

Ожидаемое число TA сайтов в геноме - 336258.

Реальное число TA сайтов в геноме - 218025.

P-value = 0.0, следовательно, такое отличие является статистически значимым.