#pragma css /css/2018.css <<BI>> == Практикум 6 == === 1. Мини КР === Выполняется только на занятии. Если не написана, то вопрос на коллоквиуме === 2. Создание позиционной весовой матрицы (PWM) для последовательностей Козак одного из организмов === Данные берутся из рис.1 статьи Grzegorski et al., PLoS ONE 9(9): e108475, 2014. Также рисунок доступен на диске P: на kodomo, директория CW. Выбор варианта: любой из восьми, кроме тех, которые у соседей (по парте, компьютеру, общежитию и мобильнику) Мы договорились, что число в ячейке матрицы считаем числом соответствующих букв (хотя в статье это проценты). '''Выполняется на занятии'''. Крайний срок сообщения о выполнению - 13 марта до вечера, который наступит как только я лягу спать. Лягу в нормальное время, т.к. предыдущей ночью допоздна готовился к занятию. Запись в очередь обязательна. Нужна ссылка на файл с результатом: величины псевдоотсчётов и матрица PWM для участка от -3 до 4 (7 позиций в выравнивании) и промежуточными вычислениями (или текст программы - если выполняли не в Excel. В этот раз (и только в этот раз) допускается отсылка результата письмом на мой адрес. При зачете задания засчитывается соответствующая тема коллоквиума. ААл === 3. Самостоятельно разобрать раздел "Информационное содержание" в презентации === На следующем занятии будет проверка в виде контрольной, теста или как-то еще. Требуется уметь * вычислить информационное содержание выравнивания сигналов по данной матрице частот букв (может пригодиться файл из задания 2) * построить LOGO для данного выравнивания и объяснить его (один из сервисов указан в презентации) * объяснить чем слабый сигнал отличается от сильного * грубо оценить число случайных находок сигнала в геноме указанного размера при известном информационном содержании сигнала === 4. В полном геноме одного из коронавирусов (Coronaviridae) выполните поиск сайтов регуляции разрывной транскрипции sgmRNA === {{{ 15 марта ААл В Pubmed поискал статьи об идентификации и механизму синтеза sgmRNA в порядке Нидовирусов (содержит семейство коронавирусов). Нашел две статьи 2017 - 2018 года, в которых идентифицированы sgmRNA методом NGS или рибосомного профайлинга. [1] Di et al., PNAS, 2017 (вирус arterivirus: Simian hemorrhagic fever virus (SHFV)). [2] Stewart et al., Journal of Virology, 2018 (Torovirus (subfamily Torovirinae, family Coronaviridae) Не без сюрпризов: [1] - множественные TRS-B сигналы, [2] - нашли новые белки U1 и U2 в 5' UTR Если захотите найти статьи, то поиск в Pubmed: Di[1au] 2017[dp] PNAS[ta] и т.п. К сожалению, биоинформатические предсказания сигналов TRS-L и TRS-B похоже отсутствуют. Ваши результаты могут оказаться новыми. }}} '''Введение.''' sgmRNA - субгеномная матричная РНК коронавируса. Она образуется путем объединения участка с геном позднего белка с лидерной последовательностью при образовании -РНК (т.е. РНК, комплементарной к РНК вируса, являющейся +РНК) Читайте презентацию и статью, указанную в ней. В идеале должен найтись сигнал в лидерной последовательности, называемый TRS-L (TRS от Transcription-Regulating Sequence) и сигналы TRS-B перед кодирующей последовательностью каждого позднего гена. Координаты всех поздних генов найдете в соответствующей записи с геномом в формате Genbank. Все сигналы TRS-B и TRS-L включают одинаковую последовательностью из шести нуклеотидов. Последовательность называется CS (от Core Sequence). В статье она приведена для того коронавируса, который изучали авторы. Сигналы TRS шире CS на несколько (неизвестно сколько) нуклеотидов с 5' и 3' стороны. Если найдете только сигналы CS, этого будет достаточно. '''Замечание''' Насколько я могу судить по доступной литературе такая работа еще не была выполнена никем для доступных сегодня геномов коронавирусов, в частности, для нашего любимого SARS-CoV-2. Биология любит неожиданности. Поэтому, ваш отрицательный результат тоже будет зачтен, если будут описаны предпринятые попытки и их результат. Положительные результат тоже будет зачтен `:)` '''Выбор коронавируса''' На странице Genome NCBI (https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/) в окошке напишите Coronaviridae. В списке Из списка выбирайте любой, проверив что геном полный: в какой-то колонке должен быть полностью черный кружок. Договоритесь как-нибудь кто какой геном берет. И пришлите списочек. SARS-CoV-2 предлагаю разыграть!!! Бета коронавирусы в приоритете, т.к. наш любимый из этой группы. Посмотрел - в списке 52 разных коронавируса, на всех хватит. Можно, если два человека будут работать с одним и тем же геномом. Результаты можно будет сравнить. Совместная работа не запрещена. Но если работаете совместно - вклад каждого обязан быть написан ПРЯМО. [[ ../hints6 |'''Технические подсказки''']] ААл {{{#!wiki comment Цель задания: поискать с помощью программы MEME сайт связывания транскрипционного фактора, регулирующего синтез пуринов у одной из гаммапротеобактерий. == Этапы работы == * Найдите в [[2016/4/task5/table|таблице]] против своей фамилии латинское название бактерии. * Зайдите на сайт Uniprot и откройте расширенный поиск (гиперссылка "Advanced" справа вверху) * В верхней паре окошек: слева выберите поле "Keyword", справа начните набирать слова "Purine biosynthesis". Система подскажет полное написание этого "ключевого слова" (т.н. ключевые слова в Uniprot берутся из фиксированного списка). * В следующей паре окошек слева выберите "Organism", в правое скопируйте род и вид бактерии из [[2016/4/task5/table|таблицы]]. В данном случае НЕ НАДО пользоваться подсказкой системы и добавлять что-то ещё! Дело в том, что для многих видов бактерий имеется большое количество штаммов, и легко нарваться на плохо аннотированный штамм, для которого ничего не найдётся. * Щёлкните по изображению лупы, чтобы запустить поиск. Дождитесь результата. * На странице с результатом слева найдите гиперссылку "Reviewed" и щёлкните по ней (нам нужны только хорошо аннотированные белки). * В левой части страницы вы увидите список, озаглавленный "Popular organisms". Список состоит из мнемоник различных штаммов данного вида, после каждой мнемоники в скобках — число записей Swiss-Prot, аннотированных как участвующие в биосинтезе пуринов и относящихся к данному штамму (для некоторых видов штамм может быть всего один, в этом случае пропустите следующий пункт). * Выберите штамм, для которого имеется не менее 8 белков, аннотированных нужным образом, и щёлкните по соответствующей гиперссылке. * Если в полученном списке слишком много (более 10) белков, выберите 8–10 из них. Занесите в протокол: полное название выбранного штамма, его Uniprot-мнемонику, список выбранных белков (первые три столбца, из третьего — только выделенное жирным шрифтом), список имён генов (четвёртый столбец). * Найдите в ENA/EMBL полный геном выбранной бактерии. Проще всего это сделать так: зайти в Uniprot на страницу записи одного из белков (гиперссылка в первом столбце) и найти там слово EMBL, после чего пройти по гиперссылке "Genomic DNA". Скачайте полную запись EMBL (справа Download: TEXT). * Для каждого из генов выбранных белков: найдите этот ген в скачанной записи EMBL и запишите координаты Upstream-региона из 100 нуклеотидов (то есть 100 нуклеотидов с 5'-стороны от статового кодона гена). Не забывайте, что ген может быть как на прямой, так и на обратной цепи (относительно записи EMBL)! * Вырежьте из файла EMBL последовательности всех выбранных Upstream-регионов и поместите их в отдельный fasta-файл. Названия последовательностей придумайте сами, но они должны включать названия генов (указание: вместо seqret лучше использовать descseq, чтобы сразу переименовывать последовательности). * На kodomo выполните команду `ememe -help`. Определите, как запустить ememe так, чтобы поиск производился на обеих цепях ДНК и чтобы программа выдала 3 различных мотива (остальные параметры можно оставить по умолчанию). Обратите внимание на то, как задать имя поддиректории, куда будут положены результаты, в том числе html-файл. * Проведите поиск мотивов. == Отчёт == Отчёт выкладывайте на свой веб-сайт. Отчёт должен включать: * Полное название бактерии (как в поле OS записей Uniprot), его мнемонику, сколько аннотированных (Reviewed) записей с ключевым словом "Purine biosynthesis" находится в Uniprot. * Список (лучше в виде таблицы) выбранных белков. * AC записи EMBL, описывающей геном бактерии. * Список генов с координатами каждого гена в записи EMBL (можно добавить к таблице белков, можно отдельно). * Гиперссылку на fasta-файл c вырезанными Upstream-регионами. * Гиперссылку на результат работы MEME. * Некоторые выводы: сколько хороших (e-value < 0.001) мотивов нашлось, во всех ли последовательностях представлен каждый из них, и вообще всё, заслуживающее внимания. == Дополнительные задания == (Первые два имеет смысл делать, если при выполнении обязательного задания нашёлся хотя бы один хороший мотив). * Найдите в Интернете LOGO для сайта связывания пуринового репрессора ''E.coli'' и сравните его с LOGO вашего мотива (мотивов). * Проведите программой emast поиск найденных мотивов в полном геноме вашей бактерии. Если будут хорошие находки помимо тех, что попадают в Upstream-области выбранных генов, проаннотируйте их: попали они в кодирующие или в межгенные области? Если в межгенные, то какие гены могут регулироваться так же, как первоначально отобранные гены? '''Указание''': чтобы провести поиск программой emast в заданных последовательнсотях, нужно отредактировать файл meme.txt, выданный программой ememe, поменяв в строке `DATAFILE= MEME/meme.fasta` имя файла на нужное. Файл с последовательностями должен быть в fasta-формате. После этого отредактированный файл meme.txt (можно и с другим названием) подаётся на вход программе emast как "mfile" (читайте `tfm emast`). * Найдите в Интернете и изучите веб-интерфейс к MEME и связанным программам. Опишите свои впечатления. }}}