Сигналы и мотивы

Описание мотива в белках паттерном

Для данного задания был выбран бактериальный белок CAS9 (CRISPR-associated protein 9) - РНК-заправляемая фермент-эндонуклеаза, работающий как программируемые «молекулярные ножницы». Она разрезает ДНК вирусов, вторгшихся в бактерию, обеспечивая защиту от инфекций.

В файле bacteria-sw.fasta белков с такой мнемоникой было найденно 12 штук.

Идентификаторы выбранных мною белков для составления паттерна:

CAS9_FRATN
CAS9_STRTR
CAS9_STAAU
CAS9_STRP1
CAS9_NEIM8

CAS9_ACTNH
CAS9_LISIN
CAS9_CAMJE
CAS9_CORDI
CAS9_PASMU

Для последовательностей этих белков было сделано выравнивание. Был выбран консервативный участок (рис. 1).

По этому участку был построен паттерн: [GA][LIF]D[IVL]G[TIV]x[SN][TIV]G[VWYL][AGF]. Затем была запущена программа fuzzpro, для поиска среди всех белков Swiss-Prot.

# Поиск по паттерну с помощью fuzzpro
fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta
-pattern [GA][LIF]D[IVL]G[TIV]x[SN][TIV]G[VWYL][AGF]
-outfile CAS9.txt

В результате было получено 14 находок, среди которых были все 12 с мнемоникой типа: CAS9_*; а также 2 белка CAS9A_STRTD, CAS9B_STRTD. Эти 2 белка также являются эндонуклеазами относихимеся к CAS9, однако в их названии есть дополнительная буква. Дело в том, что у этого организма есть 2 гена и соответсвенно 2 белка паралога.

**Рисунок 1.** Консервативный участок (RuvC подобный домен, отвечающий за разрезание нецелевой цепи ДНК). Позиции для белка CAS9_FRATN: 9 - 20.

Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

Далее всё те же 10 белков (CAS9.fasta) были использованы для поиска в них мотивов и построения паттернов программой MEME:

# Поиск мотивов и построение паттернов с помощью MEME
meme CAS9.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -o meme_out

В результате во всех 10 белках было найдено по 3 мотива.

Далее с помощью программы MAST среди белков из Swiss-Prot были найдены белки с подобными мотивами:

# Поиск белков с найденными паттернами с помощью MAST
mast meme_out/meme.html /P/y24/term4/bacteria-sw.fasta -o mast_out

В результате первые 14 позиций (по E-value) занимали также белки CAS9 и в них были найдены все 3 мотива. Но также было найдено ещё много белков (RuvC - мог найтись, так как есть мотивы с RuvC подобным доменом; YQGF - имеет нуклеазную активность и др.), но с более низким E-value.

Поиск последовательности Шайна - Дальгарно в геноме своего прокариота

В первом семестре я делал проект про прокариота Defluviicoccus vanus. В этом блоке стоит задача нахождения последовательностей Шайна — Дальгарно в его геноме.

ПШД (Shine-Dalgarno sequence) - это короткая консервативная последовательность в 5'-нетранслируемой области мРНК прокариот. Она комплементарна 3'-концу 16S рРНК и необходима для правильного связывания рибосомы с мРНК при инициации трансляции. Консенсусная последовательность ПШД: AGGAGG (у большинства бактерий). Однако это последовательность РНК (UAAGGAGG на РНК, но в ДНК это будет TAAGGAGG). В геноме ДНК она выглядит как AGGAGG. Программой fuzznuc ищем точные совпадения с указанным паттерном на указанной цепи:

# Поиск ПШД на прямой и комплиментарной цепи
fuzznuc -sequence ~/term1/genome/genomic.fna -pattern AGGAGG -complement -outfile second.txt

Всего в сумме было найдено \( 2\,148 \) совпадений.

Далее необходимо рассчитать ожидаемое случайное число находок. Для этого сначала была посчитана частота каждого нуклеотида в геноме:

# Подсчёт частоты нуклеотидов
compseq -sequence ~/term1/genome/genomic.fna -outfile genome_comp.txt -word 1

Получили частоты:

A: 0,1815943
C: 0,3172063
G: 0,3182158
T: 0,1824562

При случайном распределении нуклеотидов (нулевая гипотеза - положение каждого нуклеотида независимо) частота гексамера AGGAGG равна произведению частот составляющих его нуклеотидов:

\( P_{\text{expected}} = p(A) \times p(G) \times p(G) \times p(A) \times p(G) \times p(G) = [p(A)]^2 \times [p(G)]^4 \)

То есть в нашем случае:

\( P_{\text{expected}} = 0,1815943^2 \times 0,3182158^4 = 0,0003381 \)

Тогда ожидаемое число назодок во всём геноме (L - длина шенома; умножаем на 2, так как на прямой и на обратной цепи):

\( N_{\text{expected}} = P_{\text{expected}} \times L \times 2 = 0,0003381 \times 4\,224\,566 \times 2 = 2\,856 \)

Какой в итоге можно сделать вывод о случайности? Наши числа (\( 2\,148 \) и \( 2\,856 \)) отличаются на \( 708 \), но много ли это?

Для проверки гипотезы о случайном распределении последовательности Шайна - Дальгарно в геноме был использован Z-тест:

\[ Z = \frac{|N_{\text{obs}} - N_{\text{exp}}|}{\sqrt{N_{\text{exp}}}} \]

\[ Z = \frac{|2\,148 - 2\,856|}{\sqrt{2\,856}} = \frac{708}{53,44} \approx 13,25 \]

Критические значения \(Z\) для 1 степени свободы при различных уровнях значимости:

\(\alpha = 0,05\) → критическое значение = 1,96
\(\alpha = 0,01\) → критическое значение = 2,58
\(\alpha = 0,001\) → критическое значение = 3,29

У нас получилось 13,25 и это значит, что статистически различается случайное число находок и реальное (в моём случае реальное число сильно меньше).

Далее было проверено, где располагаются найденные мотивы в геноме. Для этого был написан скрипт на питоне. Оказалось, что только 4,61% найденных мотивов находятся на расстоянии 6 - 10 нуклеотидов от старт-кодона.