Долина, pr48

Практикум 8

Сигналы и мотивы

Описание мотива в белках паттерном

В рамках задания я выбрала мнемонику SYD. Ей соответствуют белки Aspartyl-tRNA synthetase (Аспартил-тРНК-синтетаза), относящиеся к аминоацил-тРНК-синтетазам II класса. Эти белки катализируют специфическое присоединение аспарагиновой кислоты к соответствующей ей транспортной РНК.

С помощью следующего кода было выяснено, что в файле bacteria-sw.fasta есть всего 280 белков с такой мнемоникой:

grep "|SYD_" /P/y24/term4/bacteria-sw.fasta | wc -l

Были случайно взяты следующие 8 белков для дальнейшего анализа:

SYD_VIBVU
SYD_STAAR
SYD_STAAS
SYD_IDILO
SYD_BLOPB
SYD_PEDPA
SYD_PASMU
SYD_EXISA

После скачивания последовательностей из Swissprot с помощью команды seqret, было произведено выравнивание muscle в Jalview. В качестве паттерна был взят фрагмент последовательности 543-554, содержащий в себе консервативную последовательность -G-L-D-R-. Это фрагмент соответствует третьему мотиву, находящемуся ближе к C-концу каталитического домена.

Изначальный паттерн: P-H-[GA]-G-[LI]-A-[FLI]-G-L-D-R-[FLI]

fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern 'P-H-[GA]-G-[LI]-A-[FLI]-G-L-D-R-[FLI]' -outfile sydfuzz11.txt

Было найдено всего 354 белка и из них 204 белка с мнемоникой SYD_. Важно отметить, что остальные белки 150 белков имеют мнемонику SYDND_. У этих белков консервативный тот же мотив почти идентичный, как и у SYD. Различаются они в других двух мотивах, но они менее консервативны, в отличии от третьего. Поэтому я решила ориентироваться на количество чистых SYD и смотреть на отсутствие реально ложноположительных результатов виде других мнемоник, отличных от SYD и SYDND.

После был найден наиболее оптимальный паттерн: P-H-x-G-x-A-x-G-L-D-R-x

В таком случае было всего 441 белок, из них 235 - с мнемоникой SYD, 205 - SYDND и один белок - другой мнемоники. То есть потеря целевой мнемоники составляет всего 45 белков. Вероятно, для того, чтобы создать паттерн подходящий под них, стоило бы взять больше выровненных последовательностей.

Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

Далее были использованы следующие команды для поиска мотивов:

meme sydint.fasta -protein -mod oops -minw 8 -maxw 15 -nmotifs 3 -oc meme

Выдача программы MEME в формате HTML

mast meme/meme.html /P/y24/term4/bacteria-sw.fasta -oc mast

Выдача программы MAST в формате HTML

Итого после работы mast были найдены все 280 SYD мнемоник и 408 SYDND. Всего находок 728 и из них лишь 40 - не являются выбранными мнемониками и имели очень большой E-value. Таким образом гораздо легче искать целевые мнемоники, чем вручную, даже можно исключить все очень схожие мнемоники.

Поиск последовательности Шайна — Дальгарно в геноме своего прокариота

Последовательность Шайна-Дальгарно (ПШД) – это короткая (обычно 6–7 нуклеотидов) пуриновая последовательность в прокариотической мРНК перед старт-кодоном, которая служит сайтом связывания рибосомы. В классическом варианте консенсус ПШД – AGGAGG . SD располагается на расстоянии порядка 5–10 нуклеотидов вверх по течению от старт-кодона и и комплементарна к 3'-концу 16S рРНК рибосомы, что обеспечивает выравнивание рибосомы относительно старт-кодона.

Данный мотив искался в геноме Mucilaginibacter robiniae (GCF_012849215.1), который использовался в первом семестре для написания миниобзора, с помощью двух следующих программ, для поиска на прямой цепи и с учетом комплементарности:

fuzznuc -sequence ./ncbi_dataset/data/GCF_012849215.1/GCF_012849215.1_ASM1284921v1_genomic.fna -pattern 'AGGAGG' -outfile pshd_pr

fuzznuc -sequence ./ncbi_dataset/data/GCF_012849215.1/GCF_012849215.1_ASM1284921v1_genomic.fna -pattern 'AGGAGG' -complement -outfile pshd_outpr

Всего нуклеотидов в геноме - 4896009. Находок на прямой цепи - 412, с учетом комплиментарности - 792, то есть на комплементарной цепи всего 380 находок.

Чтобы понять, статистически ли значимо найденное количество, сравним его с ожидаемым числом в случайной последовательности с той же последовательностью нуклеотидов. Сначала подсчитаем частоты нуклеотидов (pA, pC, pG, pT) в геноме. Наш мотив длины k=6. Тогда вероятность случайного появления этого точного мотива в конкретной позиции ≈ p(A)·p(G)·p(G)·p(A)·p(G)·p(G) или p(A)^2 и p(G)^4. Для генома длины L=4896009 ожидаемое число вхождений приблизительно равно E= (L− k + 1) × [p(A) p(G) p(G) p(A) p(G) p(G)]. Сравним это число с фактическим количеством найденных мотивов. Для этого берется Z-статистика: Z= (O− E)/ E. Если ∣Z∣ > 1.96, разница считается статистически значимой на уровне p < 0.05 уровне. Код для подсчета

Модуль полученного Z-score больше 1.96 и больше 10 (примерно -13.5 для прямой цепи и -14.3 для обратной) что позволяет отвергнуть нулевую гипотезу Z-статистики о случайном распределении мотива. Поэтому мы можем сказать, что число найденных вхождений мотива вполне достоверно меньше предсказанного моделью, основанной на частотах отдельных нуклеотидов.

С помощью кода было выявлено, что верных последовательностей всего 28 из 808 имеющихся. Таким образом, лишь небольшая часть обнаруженных в геноме участков с мотивом AGGAGG находится на расстоянии, характерном для последовательности Шайна–Дальгарно. Это объясняется тем, что у архей SD-мотив крайне вариабелен и не является обязательным для работы гена. Строгий консенсус, который мы использовали в поиске, плохо подходит для выявления SD-последовательностей у архей. Следовательно, большинство найденных повторов, скорее всего, возникают случайно или выполняют иную (не связанную с инициацией трансляции) функцию.