Сорокин, практикум 8

В качестве мнемоники Swiss-Prot была выбрана NADK. Белки с данной мнемоникой являются НАД киназами. Они регулируют внутриклеточный баланс НАД и НАДФ, катализируя реакцию фосфорилирования 2' гидроксила аденозина НАД, превращая его в НАДФ. Данные ферменты могут использовать в качестве донора фосфатной группы АТФ и другие нуклеозидтрифосфаты.

Выбранные белки: NADK_ECOLI, NADK_MYCTU, NADK_SHESA, NADK_NITV4, NADK_VEREI, NADK_HALHL, NADK_CERS1, NADK_BURVG, NADK_ENT38.

Последовательности выбранных белков были выделены с помощью seqret и были выровнены в программе JalView, используя Muscle с параметрами по умолчанию.

В качестве выбранного мотива было решено взять позиции выравнивания 223-232, как изображено на рис. 1.

Рисунок 1. Изображение выбранного мотива по выравниванию в программе JalView (в красном прямоугольнике).

С помощью программы fuzzpro был проведен поиск по всем белкам бактерий из Swiss-Prot (файл /P/y24/term4/bacteria-sw.fasta). Количество предполагаемых найденных находок было найдено с помощью следующей команды и составило 433.

grep -c '|NADK_' /P/y24/term4/bacteria-sw.fasta

С помощью следующей команды был проведен поиск по данному файлу.

fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern [SAC]-[TS]-P-[TA]-G-[SA]-T-[AG]-Y-[SAN] -outfile fuzzpro.out

[SAC]-[TS]-P-[TA]-G-[SA]-T-[AG]-Y-[SAN] — составленный паттерн мотива.

Всего было найдено 367 белков. Из них было найдено 333 белка с мнемоникой NADK_*. Ложноотрицательных результатов (то есть которые должны найтись, но не нашлись) оказалось 433-333=100.

Далее я попытался улучшить составленный паттерн, чтобы количество ложноотрицательных результатов было меньше. Для этого я решил заменить позиции [SAC] и [SAN] на x, тем самым ослабив паттерн. Была использована следующая команда:

fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern x-[TS]-P-[TA]-G-[SA]-T-[AG]-Y-x -outfile fuzzpro2.out

Всего было найдено 378 белков. Из них было найдено 342 белка с нужной нам мнемоникой NADK_*. То есть мы нашли еще 9 белков. Можно, конечно, еще сильнее ослабить паттерн, но тогда количество ложноположительных результатов сильно увеличится. Проблемой поиска белков нужного семейства по паттерну является то, что мы в паттерне никак не учитываем, что какие-то аминокислоты встречаются намного чаще других. Попробуем поискать нужные нам белки другим способом.

С помощью программы MEME были найдены мотивы исследуемых белков. Была использована команда:

meme nadk.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -o memedir

Пояснения:

-protein — подаем на вход белковые последовательности;

-mod oops — "One Occurrence Per Sequence" — по одному представителю мотива на последовательность;

-nmotifs 3 — искать до трех различных мотивов;

-minw 8 и -maxw 15 — минимальная длина мотива 8 аминокислот, максимальная длина мотива — 15.

В выходе из программы мы создали папку memedir, в которой находится файл выдачи в формате html. Ссылка на html-файл. В верхней части показаны 3 мотива, которые MEME нашла в вашем файле nadk.fasta. Три найденных мотива находятся во всех девяти исследуемых белках.

Далее проведем поиск по всей базе данных с помощью программы MAST, подавая на вход html-файл выдачи программы MEME:

mast meme.html /P/y24/term4/bacteria-sw.fasta -o mastdir

Ссылка на html-файл выдачи программы MAST.. Суммарно было найдено 708 последовательностей с E-value меньше 10. Абсолютное большитснво надежных находок (с очень маленьким E-value) составляли исследуемые белки NADK. Также были найдены белки с мнемониками NADK1, NADK2, STRP*, CLOB*, CLON* и другие.

В прошлых семестрах я работал с геномом бактерии Streptococcus canis, идентификатор в NCBI Nucleotides — NZ_CP053790.1. С помощью программы fuzznuc можно узнать, сколько в геноме последовательностей Шайна Дольгарно. Последовательноть Шайна-Дольгарно — это сайт связывания 16S рРНК на мРНК в области старт-кодона. Считается, что последовательнсть Шайна-Дольгарно явлется консервативной. В качестве паттерна для ее поиска было решено выбрать AGGAGG.

С помощью следующей команды было найдено количество последовательностей Шайна-Дольгарно:

fuzznuc -sequence genomefile.fa -pattern AGGAGG [-complement] -outfile SD_1

genomefile.fa — это файл с полным геномом бактерии. Сначала был проведен поиск без опции -complement, затем - с этой отпцией, так как программа ищет находки только на одной из цепей

В результате было найдено 1331 находок (471 на прямой + 860 на обртаной). Проверим статистически, можно ли признать, что наше количество найденнх находок отличается от ожидаемого.

Для этого я решил использовать z-тест, который проверяет равенство математических ожиданий предполагаемого числа находок и полученного нами количества находок. С помощью скрипта на Python был определен GC-состав исследуемого генома. Частоты нуклеотидов: p(G)=p(C)=0.2, p(A)=p(T)=0.3. Далее было найдено предполагаемое количество найденных последовательностей AGGAGG при условии случайности и независимости нуклетидов на каждой позиции:

Обозначим длину нашего генома как L. Тогда предполагаемое количество последовательностей AGGAGG в геноме при условии независимости нуклеотидов в каждой позиции будет равно:

Nслуч = L*p(A)*p(G)*p(G)*p(A)*p(G)*p(G) = 2152128 * 0.3 * 0.2 * 0.2 * 0.3 * 0.2 * 0.2 = 310

То есть математическое ожидание числа последовательностй AGGAGG в геноме при условии независимости появления каждого нуклеотида на каждой позиции равно 310;

Найденное количество находок — 1331;

Подставляем в формулу z-статистики, считая, что наша случайная величина (количество последовательностей AGGAGG в геноме) распределено по Пуассону (т. к. длина генома большая, а вероятность последовательности маленькая):

z-статистика = (Nнабл - Nслуч)/SDслуч = (1331-2*390)/sqrt(2*390) = 19.73

Нулевая гипотеза о случайном распределении искомого мотива в геноме (с учетом частот нуклеотидов) отвергается на уровне значимости 5% (19.73 >> 1.96). Наблюдаемое число находок статистически достоверно превышает ожидаемое при случайном расположении. Значит, распространенность последовательности Шайна-Дольгарно в геноме исследуемой бактерии сильно превышает ожидаемое количество. Посмотрим, с чем это может быть связано.

Для подтверждения того, что найденные находки действительно являются последовательностями Шайна-Дольгарно, был сделан скрипт на Python, который считает количество истинных последовательностей SD. Истинной последовательностью SD я считал те последовательности, которые находятся на расстоянии до 30 нуклеотидов от старт-кодона.

Выдача скрипта:

Всего последовательностей Шайна-Дольгарно в файле SD_1.txt — 142

Всего последовательностей Шайна-Дольгарно в файле SD_2.txt — 183

То есть, на прямой цепи было найдено 142 последовательности SD (это 30.15% от общего числа предполагаемых SD на прямой цепи) и 183 последовательности SD на обратной цепи (21.28%). Суммарный процент найденных SD по прямой и обратной цепях равен 24.42% (325 последовательностей).

Как можно заметить по представленным данным, реальные последовательности Шайна-Дольгарно были найдены вместе с какими-то другими последовательностями. Это значит, что мотив был найден не только в SD, но и на других участках генома.

Практикум 8. Сигналы и мотивы

Поиск программой fuzzpro

Поиск программами MEME и MAST

Поиск последовательности Шайна-Дольгарно в геноме