Практикум 8

Общая суть задания: взять последовательность какого-либо белка из генома нескольких бактерий. Выровнять, построить паттерн по любому консервативному участку (длиной около 8-20 нуклеотидов), который не будет содержать гэпы. После этого, с помощью программы fuzzpro из EMBOSS провести поиск по этому паттерну среди всех белков бактерий из Swiss-Prot. Цель: отобрать все белки с выбранной мнемоникой.

Для задания я выбрала мнемонику SYD. Это белок, который относится к семейству аминоацил-тРНК-синтетаз и отвечает за присоединение молекулы аспарагиновой кислоты к соотвествующей тРНК.

Выбранные бактерии, на основе белков которых будет составляться паттерн: ECOLI, BACSU, MYCTU, STAAS, HELPY, SYNY3, CHLTR, AQUAE.

При поиске мнемоники SYD оказалось, что только у двух бактерий (ECOLI и STAAS) есть непосредственно сама аспартат-тРНК лигаза, а в остальных она представлена в виде аспартат-тРНК(Asp/Asn)-лигазы (SYDND). Белок решила не менять, брала для бактерии тот, который у неё есть.

В файле bacteria-sw.fasta (файл, в котором содержатся все белки бактерий из Swiss-Prot) 689 белков с любой из этих двух мнемоник. Команда, с помощью которой я это узнала:

grep -E '\|(SYD|SYDND)_' bacteria-sw.fasta | sort -u | wc -l

mafft syd_nd.fasta > syd_nd_aln.fasta

Поиск белков по паттерну проводился командой:

fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern D-E-D-[LF]-R-A-D-R-Q-P-E-F-T-Q-[ILV]-D-X-E-[TM]-S-F -outfile fuzz_search

При проверке результатов было отобрано 382 верно найденных результата, тогда как всего их в файле 383. Тогда ложноположительных 1, а ложноотрицательных 306.

grep "Sequence:" fuzz_search | sort -u | wc -l

grep -E '(SYD|SYDND)_' fuzz_search | sort -u | wc -l

2. Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

Глобально, идея похожа на п.1, но здесь мотивы будут искаться программами MEME и MAST.

Для поиска мотивов программой meme по выбранным последовательностям (здесь они не выравнивались) использовалась команда:

meme syd_nd.fasta -protein -mod oops -minw 8 -maxw 15 -nmotifs 3 -oc out_meme

В команде требовалось найти максимум три мотива, при этом предполагается, что они входят в последовательность всего один раз. В итоге было найдено по три мотива в каждом белке, все с низким p-value. Мой мотив из прошлого пункта тоже был найден (он второй в выдаче) с p-value = 1.9e-067

После этого программой MAST поискала в файле bacteria-sw.fasta найденные с помощью MEME мотивы:

mast ./out_meme/meme.html /P/y24/term4/bacteria-sw.fasta

Всего было найдено 727 последовательностей, из них 37 ложноположительных и ни одной ложноотрицательной. Хоть e-value ложных находок было значимо выше, последняя моя находка с верной мнемоникой имела практически такой же e-value (1.8e-2 у последней верной находки и 1.7e-1 у первой неверной). Однако в целом результат хороший, количество ложноотрицательных результатов уменьшилось на 305. Mast и meme являются более эффективными для поиска новых белков.

3. Поиск последовательности Шайна — Дальгарно в геноме Phenylobacterium zucineum

В качестве консенсусной возьму последовательность AGGAGG. Длина генома 3996255 нуклеотидов, поиск проводился командой fuzznuc

fuzznuc GCF_000017265.1_ASM1726v1_genomic.fna -pattern AGGAGG -complement Y -outfile reverse.fuzznuc

В результате было найдено всего 3626 находок. Из них на прямой цепи 1797, а на обратной -- 1829.

GC-состав генома моей бактерии: 69.94%. Тогда p(C) = p(G) = 0.6994/2 = 0.35. p(A) = p(T) = 0.3006/2 = 0.15.

Ожидаемое число находок: p(AGGAGG) * (длина генома)*2 = 6.2e-5 * 3996255 * 2 = 495 случайных находок

Теперь проведём z-тест для определения статистической значимости:

Значение z-статистики значит, что мой паттерн встречается в геноме намного чаще, чем должен в теории. Поэтому следующий шаг -- проверить, встречается ли он как последовательность Шайна — Дальгарно.

Но, воспользовавшись геномной таблицей, из двадцати просмотренных находок только лишь одна имела этот паттерн до начала цепи за 7 нуклеотидов. Т.к. GC-состав моей бактерии очень высокий, полученный результат в z-тесте мог быть из-за "шума". Также, скорее всего, P. zucineum использует другую ПШД.

Практикум 8

1. Описание мотива в белках паттерном

2. Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

3. Поиск последовательности Шайна — Дальгарно в геноме Phenylobacterium zucineum