Общая суть задания: взять последовательность какого-либо белка из генома нескольких бактерий. Выровнять, построить паттерн по любому консервативному участку (длиной около 8-20 нуклеотидов), который не будет содержать гэпы. После этого, с помощью программы fuzzpro из EMBOSS провести поиск по этому паттерну среди всех белков бактерий из Swiss-Prot. Цель: отобрать все белки с выбранной мнемоникой.
Для задания я выбрала мнемонику SYD. Это белок, который относится к семейству аминоацил-тРНК-синтетаз и отвечает за присоединение молекулы аспарагиновой кислоты к соотвествующей тРНК.
Выбранные бактерии, на основе белков которых будет составляться паттерн: ECOLI, BACSU, MYCTU, STAAS, HELPY, SYNY3, CHLTR, AQUAE.
При поиске мнемоники SYD оказалось, что только у двух бактерий (ECOLI и STAAS) есть непосредственно сама аспартат-тРНК лигаза, а в остальных она представлена в виде аспартат-тРНК(Asp/Asn)-лигазы (SYDND). Белок решила не менять, брала для бактерии тот, который у неё есть.
В файле bacteria-sw.fasta (файл, в котором содержатся все белки бактерий из Swiss-Prot) 689 белков с любой из этих двух мнемоник. Команда, с помощью которой я это узнала:
grep -E '\|(SYD|SYDND)_' bacteria-sw.fasta | sort -u | wc -l
Выравнивание проводилось командой:
mafft syd_nd.fasta > syd_nd_aln.fasta
Ссылка на файл с выравниванием
Паттерн: D-E-D-[LF]-R-A-D-R-Q-P-E-F-T-Q-[ILV]-D-X-E-[TM]-S-F
Поиск белков по паттерну проводился командой:
fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern D-E-D-[LF]-R-A-D-R-Q-P-E-F-T-Q-[ILV]-D-X-E-[TM]-S-F -outfile fuzz_search
При проверке результатов было отобрано 382 верно найденных результата, тогда как всего их в файле 383. Тогда ложноположительных 1, а ложноотрицательных 306.
Команда для подсчёта всех результатов и верных соответственно:grep "Sequence:" fuzz_search | sort -u | wc -l
grep -E '(SYD|SYDND)_' fuzz_search | sort -u | wc -l
Глобально, идея похожа на п.1, но здесь мотивы будут искаться программами MEME и MAST.
Для поиска мотивов программой meme по выбранным последовательностям (здесь они не выравнивались) использовалась команда:
meme syd_nd.fasta -protein -mod oops -minw 8 -maxw 15 -nmotifs 3 -oc out_meme
В команде требовалось найти максимум три мотива, при этом предполагается, что они входят в последовательность всего один раз. В итоге было найдено по три мотива в каждом белке, все с низким p-value. Мой мотив из прошлого пункта тоже был найден (он второй в выдаче) с p-value = 1.9e-067
После этого программой MAST поискала в файле bacteria-sw.fasta найденные с помощью MEME мотивы:
mast ./out_meme/meme.html /P/y24/term4/bacteria-sw.fasta
Всего было найдено 727 последовательностей, из них 37 ложноположительных и ни одной ложноотрицательной. Хоть e-value ложных находок было значимо выше, последняя моя находка с верной мнемоникой имела практически такой же e-value (1.8e-2 у последней верной находки и 1.7e-1 у первой неверной). Однако в целом результат хороший, количество ложноотрицательных результатов уменьшилось на 305. Mast и meme являются более эффективными для поиска новых белков.
Сборка генома: GCF_000017265.1
В качестве консенсусной возьму последовательность AGGAGG. Длина генома 3996255 нуклеотидов, поиск проводился командой fuzznuc
Команда для поиска сразу на обеих цепях:
fuzznuc GCF_000017265.1_ASM1726v1_genomic.fna -pattern AGGAGG -complement Y -outfile reverse.fuzznuc
В результате было найдено всего 3626 находок. Из них на прямой цепи 1797, а на обратной -- 1829.
GC-состав генома моей бактерии: 69.94%. Тогда p(C) = p(G) = 0.6994/2 = 0.35. p(A) = p(T) = 0.3006/2 = 0.15.
p(AGGAGG) = p(A)^2 * p(G)^4 = 0.35^2 * 0.15^4 = 6.2e-5
Ожидаемое число находок: p(AGGAGG) * (длина генома)*2 = 6.2e-5 * 3996255 * 2 = 495 случайных находок
Теперь проведём z-тест для определения статистической значимости:
Z = (real-exp)/sqrt(exp)
Z = (3626-495)/sqrt(495) = 140,7
Значение z-статистики значит, что мой паттерн встречается в геноме намного чаще, чем должен в теории. Поэтому следующий шаг -- проверить, встречается ли он как последовательность Шайна — Дальгарно.
Но, воспользовавшись геномной таблицей, из двадцати просмотренных находок только лишь одна имела этот паттерн до начала цепи за 7 нуклеотидов. Т.к. GC-состав моей бактерии очень высокий, полученный результат в z-тесте мог быть из-за "шума". Также, скорее всего, P. zucineum использует другую ПШД.