В рамках задания я выбрала мнемонику SYD. Ей соответствуют белки Aspartyl-tRNA synthetase (Аспартил-тРНК-синтетаза), относящиеся к аминоацил-тРНК-синтетазам II класса. Эти белки катализируют специфическое присоединение аспарагиновой кислоты к соответствующей ей транспортной РНК.
С помощью следующего кода было выяснено, что в файле bacteria-sw.fasta есть всего 280 белков с такой мнемоникой:
grep "|SYD_" /P/y24/term4/bacteria-sw.fasta | wc -l
Были случайно взяты следующие 8 белков для дальнейшего анализа:
После скачивания последовательностей из Swissprot с помощью команды seqret, было произведено выравнивание muscle в Jalview. В качестве паттерна был взят фрагмент последовательности 543-554, содержащий в себе консервативную последовательность -G-L-D-R-. Это фрагмент соответствует третьему мотиву, находящемуся ближе к C-концу каталитического домена.
Изначальный паттерн: P-H-[GA]-G-[LI]-A-[FLI]-G-L-D-R-[FLI]
fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern 'P-H-[GA]-G-[LI]-A-[FLI]-G-L-D-R-[FLI]' -outfile sydfuzz11.txt
Было найдено всего 354 белка и из них 204 белка с мнемоникой SYD_. Важно отметить, что остальные белки 150 белков имеют мнемонику SYDND_. У этих белков консервативный тот же мотив почти идентичный, как и у SYD. Различаются они в других двух мотивах, но они менее консервативны, в отличии от третьего. Поэтому я решила ориентироваться на количество чистых SYD и смотреть на отсутствие реально ложноположительных результатов виде других мнемоник, отличных от SYD и SYDND.
После был найден наиболее оптимальный паттерн: P-H-x-G-x-A-x-G-L-D-R-x
В таком случае было всего 441 белок, из них 235 - с мнемоникой SYD, 205 - SYDND и один белок - другой мнемоники. То есть потеря целевой мнемоники составляет всего 45 белков. Вероятно, для того, чтобы создать паттерн подходящий под них, стоило бы взять больше выровненных последовательностей.
Далее были использованы следующие команды для поиска мотивов:
meme sydint.fasta -protein -mod oops -minw 8 -maxw 15 -nmotifs 3 -oc meme
Выдача программы MEME в формате HTML
mast meme/meme.html /P/y24/term4/bacteria-sw.fasta -oc mast
Выдача программы MAST в формате HTML
Итого после работы mast были найдены все 280 SYD мнемоник и 408 SYDND. Всего находок 728 и из них лишь 40 - не являются выбранными мнемониками и имели очень большой E-value. Таким образом гораздо легче искать целевые мнемоники, чем вручную, даже можно исключить все очень схожие мнемоники.
Последовательность Шайна-Дальгарно (ПШД) – это короткая (обычно 6–7 нуклеотидов) пуриновая последовательность в прокариотической мРНК перед старт-кодоном, которая служит сайтом связывания рибосомы. В классическом варианте консенсус ПШД – AGGAGG . SD располагается на расстоянии порядка 5–10 нуклеотидов вверх по течению от старт-кодона и и комплементарна к 3'-концу 16S рРНК рибосомы, что обеспечивает выравнивание рибосомы относительно старт-кодона.
Данный мотив искался в геноме Mucilaginibacter robiniae (GCF_012849215.1), который использовался в первом семестре для написания миниобзора, с помощью двух следующих программ, для поиска на прямой цепи и с учетом комплементарности:
fuzznuc -sequence ./ncbi_dataset/data/GCF_012849215.1/GCF_012849215.1_ASM1284921v1_genomic.fna -pattern 'AGGAGG' -outfile pshd_pr
fuzznuc -sequence ./ncbi_dataset/data/GCF_012849215.1/GCF_012849215.1_ASM1284921v1_genomic.fna -pattern 'AGGAGG' -complement -outfile pshd_outpr
Всего нуклеотидов в геноме - 4896009. Находок на прямой цепи - 412, с учетом комплиментарности - 792, то есть на комплементарной цепи всего 380 находок.
Чтобы понять, статистически ли значимо найденное количество, сравним его с ожидаемым числом в случайной последовательности с той же последовательностью нуклеотидов. Сначала подсчитаем частоты нуклеотидов (pA, pC, pG, pT) в геноме. Наш мотив длины k=6. Тогда вероятность случайного появления этого точного мотива в конкретной позиции ≈ p(A)·p(G)·p(G)·p(A)·p(G)·p(G) или p(A)^2 и p(G)^4. Для генома длины L=4896009 ожидаемое число вхождений приблизительно равно E= (L− k + 1) × [p(A) p(G) p(G) p(A) p(G) p(G)]. Сравним это число с фактическим количеством найденных мотивов. Для этого берется Z-статистика: Z= (O− E)/ E. Если ∣Z∣ > 1.96, разница считается статистически значимой на уровне p < 0.05 уровне. Код для подсчета
Модуль полученного Z-score больше 1.96 и больше 10 (примерно -13.5 для прямой цепи и -14.3 для обратной) что позволяет отвергнуть нулевую гипотезу Z-статистики о случайном распределении мотива. Поэтому мы можем сказать, что число найденных вхождений мотива вполне достоверно меньше предсказанного моделью, основанной на частотах отдельных нуклеотидов.
С помощью кода было выявлено, что верных последовательностей всего 28 из 808 имеющихся. Таким образом, лишь небольшая часть обнаруженных в геноме участков с мотивом AGGAGG находится на расстоянии, характерном для последовательности Шайна–Дальгарно. Это объясняется тем, что у архей SD-мотив крайне вариабелен и не является обязательным для работы гена. Строгий консенсус, который мы использовали в поиске, плохо подходит для выявления SD-последовательностей у архей. Следовательно, большинство найденных повторов, скорее всего, возникают случайно или выполняют иную (не связанную с инициацией трансляции) функцию.