Сигналы и мотивы

Консервативный мотив в выравнивании последовательностей гомологичных белков

В рамках данного практикума было взято семейство эндонуклеаз Endonuclease_5 (PF04493). Варивнивание seed для этого семейства содержит 141 последовательность, для дальнейшего поиска консервативных мотивов были удалены последовательности совпадающие более чем на 75%. Таким образом было оставлено 88 последовательностей. В качестве консервативного мотива был выбран мотив G..HPR..G[ILV]A, который встречается в 71 последовательности из 88 оставленных последовательностей (и в 121 последовательности исходного выравнивания seed). С использованием сервиса MyHints был произведён поиск найденного мотива в базе данных SwissProt. В результате получено 122 находки, из которых 118 принадлежат выбранному для работы семейству Endonuclease V, остальные 4 находки принадлежат к семейству Peptidyl-tRNA hydrolase.

Поиск мотива специфичного для клады

С использованием метода NJ было построено филогенетическое дерево и выделена клада c 26 последовательностями. В качестве консервативного был выбран мотив P[LV].[IV]S.G, который встречается в 24 последовательностях этой клады. При этом среди последовательностей исходного выравнивания этот мотив был найден 51 раз, т.е. за пределами клады мотив встречается в 27 случаях из 62. Таким образом можно сказать, что мотив специфичен для данной клады.

PSI-BLAST

Для работы был выбран белок с идентификатором P19954 – это хлоропластный фактор связывания рибосомы из организма Spinacia oleracea (Шпинат огородный). В результате запуска 4 итераций PSI-BLAST получено 28 находок

Таблица 1. Таблица итераций PSI-BLAST.
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 17 P30334 \(\begin{equation}0,004\end{equation}\)
2 28 P9WMA8 \(\begin{equation}0,003\end{equation}\) Q0C0T0 \(\begin{equation}0,027\end{equation}\)
3 28 P9WMA8 \(\begin{equation}7,00\cdot10^{-13}\end{equation}\)
4 28 P9WMA8 \(\begin{equation}8,00\cdot10^{-13}\end{equation}\)

Проверка числа TA в геноме бактерии

Для выполнения данного задания была использована референсная сборка генома Streptomyces lincolnensis (GCF_003344445.1) и написан скрипт, в результате которого было найдено 99 461 сайтов TA в геноме, при этом ожидаемое число таких сайтов в геноме равно 199 153 (с учётом GC-состава). Данное отличие является статистически значимым, так как \(\begin{equation}\text{p-value} = 0.0\end{equation}\) (использовано биномиальное распределение).