Учебная страница курса биоинформатики,
год поступления 2018
Практикум 6
1. Мини КР
Выполняется только на занятии. Если не написана, то вопрос на коллоквиуме
2. Создание позиционной весовой матрицы (PWM) для последовательностей Козак одного из организмов
Данные берутся из рис.1 статьи Grzegorski et al., PLoS ONE 9(9): e108475, 2014.
Также рисунок доступен на диске P: на kodomo, директория CW.
Выбор варианта: любой из восьми, кроме тех, которые у соседей (по парте, компьютеру, общежитию и мобильнику)
Мы договорились, что число в ячейке матрицы считаем числом соответствующих букв (хотя в статье это проценты).
Выполняется на занятии. Крайний срок сообщения о выполнению - 13 марта до вечера, который наступит как только я лягу спать. Лягу в нормальное время, т.к. предыдущей ночью допоздна готовился к занятию.
Запись в очередь обязательна. Нужна ссылка на файл с результатом: величины псевдоотсчётов и матрица PWM для участка от -3 до 4 (7 позиций в выравнивании) и промежуточными вычислениями (или текст программы - если выполняли не в Excel. В этот раз (и только в этот раз) допускается отсылка результата письмом на мой адрес.
При зачете задания засчитывается соответствующая тема коллоквиума.
ААл
3. Самостоятельно разобрать раздел "Информационное содержание" в презентации
На следующем занятии будет проверка в виде контрольной, теста или как-то еще.
Требуется уметь
- вычислить информационное содержание выравнивания сигналов по данной матрице частот букв (может пригодиться файл из задания 2)
- построить LOGO для данного выравнивания и объяснить его (один из сервисов указан в презентации)
- объяснить чем слабый сигнал отличается от сильного
- грубо оценить число случайных находок сигнала в геноме указанного размера при известном информационном содержании сигнала
4. В полном геноме одного из коронавирусов (Coronaviridae) выполните поиск сайтов регуляции разрывной транскрипции sgmRNA
15 марта ААл В Pubmed поискал статьи об идентификации и механизму синтеза sgmRNA в порядке Нидовирусов (содержит семейство коронавирусов). Нашел две статьи 2017 - 2018 года, в которых идентифицированы sgmRNA методом NGS или рибосомного профайлинга. [1] Di et al., PNAS, 2017 (вирус arterivirus: Simian hemorrhagic fever virus (SHFV)). [2] Stewart et al., Journal of Virology, 2018 (Torovirus (subfamily Torovirinae, family Coronaviridae) Не без сюрпризов: [1] - множественные TRS-B сигналы, [2] - нашли новые белки U1 и U2 в 5' UTR Если захотите найти статьи, то поиск в Pubmed: Di[1au] 2017[dp] PNAS[ta] и т.п. К сожалению, биоинформатические предсказания сигналов TRS-L и TRS-B похоже отсутствуют. Ваши результаты могут оказаться новыми.
Введение. sgmRNA - субгеномная матричная РНК коронавируса. Она образуется путем объединения участка с геном позднего белка с лидерной последовательностью при образовании -РНК (т.е. РНК, комплементарной к РНК вируса, являющейся +РНК)
Читайте презентацию и статью, указанную в ней.
В идеале должен найтись сигнал в лидерной последовательности, называемый TRS-L (TRS от Transcription-Regulating Sequence) и сигналы TRS-B перед кодирующей последовательностью каждого позднего гена. Координаты всех поздних генов найдете в соответствующей записи с геномом в формате Genbank. Все сигналы TRS-B и TRS-L включают одинаковую последовательностью из шести нуклеотидов. Последовательность называется CS (от Core Sequence). В статье она приведена для того коронавируса, который изучали авторы. Сигналы TRS шире CS на несколько (неизвестно сколько) нуклеотидов с 5' и 3' стороны. Если найдете только сигналы CS, этого будет достаточно.
Замечание Насколько я могу судить по доступной литературе такая работа еще не была выполнена никем для доступных сегодня геномов коронавирусов, в частности, для нашего любимого SARS-CoV-2. Биология любит неожиданности. Поэтому, ваш отрицательный результат тоже будет зачтен, если будут описаны предпринятые попытки и их результат. Положительные результат тоже будет зачтен :)
Выбор коронавируса На странице Genome NCBI (https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/) в окошке напишите Coronaviridae. В списке Из списка выбирайте любой, проверив что геном полный: в какой-то колонке должен быть полностью черный кружок. Договоритесь как-нибудь кто какой геном берет. И пришлите списочек. SARS-CoV-2 предлагаю разыграть!!! Бета коронавирусы в приоритете, т.к. наш любимый из этой группы. Посмотрел - в списке 52 разных коронавируса, на всех хватит.
Можно, если два человека будут работать с одним и тем же геномом. Результаты можно будет сравнить. Совместная работа не запрещена. Но если работаете совместно - вклад каждого обязан быть написан ПРЯМО.
ААл
Цель задания: поискать с помощью программы MEME сайт связывания транскрипционного фактора, регулирующего синтез пуринов у одной из гаммапротеобактерий.
Этапы работы
Найдите в таблице против своей фамилии латинское название бактерии.
В следующей паре окошек слева выберите "Organism", в правое скопируйте род и вид бактерии из таблицы. В данном случае НЕ НАДО пользоваться подсказкой системы и добавлять что-то ещё! Дело в том, что для многих видов бактерий имеется большое количество штаммов, и легко нарваться на плохо аннотированный штамм, для которого ничего не найдётся.
На kodomo выполните команду ememe -help. Определите, как запустить ememe так, чтобы поиск производился на обеих цепях ДНК и чтобы программа выдала 3 различных мотива (остальные параметры можно оставить по умолчанию). Обратите внимание на то, как задать имя поддиректории, куда будут положены результаты, в том числе html-файл.
Отчёт
Отчёт выкладывайте на свой веб-сайт. Отчёт должен включать:
Некоторые выводы: сколько хороших (e-value < 0.001) мотивов нашлось, во всех ли последовательностях представлен каждый из них, и вообще всё, заслуживающее внимания.
Дополнительные задания
(Первые два имеет смысл делать, если при выполнении обязательного задания нашёлся хотя бы один хороший мотив).
Найдите в Интернете LOGO для сайта связывания пуринового репрессора E.coli и сравните его с LOGO вашего мотива (мотивов).
Проведите программой emast поиск найденных мотивов в полном геноме вашей бактерии. Если будут хорошие находки помимо тех, что попадают в Upstream-области выбранных генов, проаннотируйте их: попали они в кодирующие или в межгенные области? Если в межгенные, то какие гены могут регулироваться так же, как первоначально отобранные гены? Указание: чтобы провести поиск программой emast в заданных последовательнсотях, нужно отредактировать файл meme.txt, выданный программой ememe, поменяв в строке DATAFILE= MEME/meme.fasta имя файла на нужное. Файл с последовательностями должен быть в fasta-формате. После этого отредактированный файл meme.txt (можно и с другим названием) подаётся на вход программе emast как "mfile" (читайте tfm emast).