Для данного задания был выбран бактериальный белок CAS9 (CRISPR-associated protein 9) - РНК-заправляемая фермент-эндонуклеаза, работающий как программируемые «молекулярные ножницы». Она разрезает ДНК вирусов, вторгшихся в бактерию, обеспечивая защиту от инфекций.
В файле bacteria-sw.fasta белков с такой мнемоникой было найденно 12 штук.
Идентификаторы выбранных мною белков для составления паттерна:
Для последовательностей этих белков было сделано выравнивание. Был выбран консервативный участок (рис. 1).
По этому участку был построен паттерн: [GA][LIF]D[IVL]G[TIV]x[SN][TIV]G[VWYL][AGF]. Затем была запущена программа fuzzpro, для поиска среди всех белков Swiss-Prot.
В результате было получено 14 находок, среди которых были все 12 с мнемоникой типа: CAS9_*; а также 2 белка CAS9A_STRTD, CAS9B_STRTD. Эти 2 белка также являются эндонуклеазами относихимеся к CAS9, однако в их названии есть дополнительная буква. Дело в том, что у этого организма есть 2 гена и соответсвенно 2 белка паралога.
Далее всё те же 10 белков (CAS9.fasta) были использованы для поиска в них мотивов и построения паттернов программой MEME:
В результате во всех 10 белках было найдено по 3 мотива.
Далее с помощью программы MAST среди белков из Swiss-Prot были найдены белки с подобными мотивами:
В результате первые 14 позиций (по E-value) занимали также белки CAS9 и в них были найдены все 3 мотива. Но также было найдено ещё много белков (RuvC - мог найтись, так как есть мотивы с RuvC подобным доменом; YQGF - имеет нуклеазную активность и др.), но с более низким E-value.
В первом семестре я делал проект про прокариота Defluviicoccus vanus. В этом блоке стоит задача нахождения последовательностей Шайна — Дальгарно в его геноме.
ПШД (Shine-Dalgarno sequence) - это короткая консервативная последовательность в 5'-нетранслируемой области мРНК прокариот. Она комплементарна 3'-концу 16S рРНК и необходима для правильного связывания рибосомы с мРНК при инициации трансляции. Консенсусная последовательность ПШД: AGGAGG (у большинства бактерий). Однако это последовательность РНК (UAAGGAGG на РНК, но в ДНК это будет TAAGGAGG). В геноме ДНК она выглядит как AGGAGG. Программой fuzznuc ищем точные совпадения с указанным паттерном на указанной цепи:
Всего в сумме было найдено \( 2\,148 \) совпадений.
Далее необходимо рассчитать ожидаемое случайное число находок. Для этого сначала была посчитана частота каждого нуклеотида в геноме:
Получили частоты:
При случайном распределении нуклеотидов (нулевая гипотеза - положение каждого нуклеотида независимо) частота гексамера AGGAGG равна произведению частот составляющих его нуклеотидов:
\( P_{\text{expected}} = p(A) \times p(G) \times p(G) \times p(A) \times p(G) \times p(G) = [p(A)]^2 \times [p(G)]^4 \)
То есть в нашем случае:
\( P_{\text{expected}} = 0,1815943^2 \times 0,3182158^4 = 0,0003381 \)
Тогда ожидаемое число назодок во всём геноме (L - длина шенома; умножаем на 2, так как на прямой и на обратной цепи):
\( N_{\text{expected}} = P_{\text{expected}} \times L \times 2 = 0,0003381 \times 4\,224\,566 \times 2 = 2\,856 \)
Какой в итоге можно сделать вывод о случайности? Наши числа (\( 2\,148 \) и \( 2\,856 \)) отличаются на \( 708 \), но много ли это?
Для проверки гипотезы о случайном распределении последовательности Шайна - Дальгарно в геноме был использован Z-тест:
\[ Z = \frac{|N_{\text{obs}} - N_{\text{exp}}|}{\sqrt{N_{\text{exp}}}} \]
\[ Z = \frac{|2\,148 - 2\,856|}{\sqrt{2\,856}} = \frac{708}{53,44} \approx 13,25 \]
Критические значения \(Z\) для 1 степени свободы при различных уровнях значимости:
У нас получилось 13,25 и это значит, что статистически различается случайное число находок и реальное (в моём случае реальное число сильно меньше).
Далее было проверено, где располагаются найденные мотивы в геноме. Для этого был написан скрипт на питоне. Оказалось, что только 4,61% найденных мотивов находятся на расстоянии 6 - 10 нуклеотидов от старт-кодона.