#pragma css /css/2018.css
<<BI>>



== Практикум 6 ==

=== 1. Мини КР ===
Выполняется только на занятии. Если не написана, то вопрос на коллоквиуме 

=== 2. Создание позиционной весовой матрицы (PWM) для последовательностей Козак одного из организмов ===
Данные берутся из рис.1 статьи Grzegorski et al., PLoS ONE 9(9): e108475, 2014.

Также рисунок доступен на диске P: на kodomo, директория CW.

Выбор варианта: любой из восьми, кроме тех, которые у соседей (по парте, компьютеру, общежитию и мобильнику) 

Мы договорились, что число в ячейке матрицы считаем числом соответствующих букв (хотя в статье это проценты).

'''Выполняется на занятии'''. Крайний срок сообщения о выполнению - 13 марта до вечера, который наступит как только я лягу спать. 
Лягу в нормальное время, т.к. предыдущей ночью допоздна готовился к занятию.

Запись в очередь обязательна. Нужна ссылка на файл с результатом: величины псевдоотсчётов и матрица PWM для участка от -3 до 4 (7 позиций в выравнивании) и промежуточными вычислениями (или текст программы - если выполняли не в Excel. В этот раз (и только в этот раз) допускается отсылка результата письмом на мой адрес.

При зачете задания засчитывается соответствующая тема коллоквиума.

ААл

=== 3. Самостоятельно разобрать раздел "Информационное содержание" в презентации ===
На следующем занятии будет проверка в виде контрольной, теста или как-то еще.
 
Требуется уметь
 * вычислить информационное содержание выравнивания сигналов по данной матрице частот букв (может пригодиться файл из задания 2)
 * построить LOGO для данного выравнивания и объяснить его (один из сервисов указан в презентации) 
 * объяснить чем слабый сигнал отличается от сильного
 * грубо оценить число случайных находок сигнала в геноме указанного размера при известном информационном содержании сигнала

=== 4. В полном геноме одного из коронавирусов (Coronaviridae) выполните поиск сайтов регуляции разрывной транскрипции sgmRNA ===
{{{
15 марта ААл
В Pubmed поискал статьи об идентификации и механизму синтеза sgmRNA в порядке Нидовирусов (содержит семейство коронавирусов).
Нашел две статьи 2017 - 2018 года, в которых идентифицированы sgmRNA методом NGS или рибосомного профайлинга. 
[1] Di et al., PNAS, 2017 (вирус arterivirus: Simian hemorrhagic fever virus (SHFV)). 
[2] Stewart et al., Journal of Virology, 2018 (Torovirus (subfamily Torovirinae, family Coronaviridae) 

Не без сюрпризов: [1] - множественные TRS-B сигналы, [2] - нашли новые белки U1 и U2 в 5' UTR

Если захотите найти статьи, то поиск в Pubmed: Di[1au] 2017[dp] PNAS[ta] и т.п.

К сожалению, биоинформатические предсказания сигналов TRS-L и TRS-B похоже отсутствуют. Ваши результаты могут оказаться новыми.

}}}


'''Введение.''' sgmRNA - субгеномная матричная РНК коронавируса. Она образуется путем объединения участка с геном позднего белка с лидерной последовательностью при образовании -РНК (т.е. РНК, комплементарной к РНК вируса, являющейся +РНК)

Читайте презентацию и статью, указанную в ней.

В идеале должен найтись сигнал в лидерной последовательности, называемый TRS-L (TRS от Transcription-Regulating Sequence) и сигналы 
TRS-B перед кодирующей последовательностью каждого позднего гена. Координаты всех поздних генов найдете в соответствующей записи с геномом в формате Genbank. Все сигналы TRS-B и TRS-L включают одинаковую последовательностью из шести нуклеотидов. Последовательность называется CS (от Core Sequence). В статье она приведена для того коронавируса, который изучали авторы. Сигналы TRS шире CS на несколько (неизвестно сколько) нуклеотидов с 5' и 3' стороны. Если найдете только сигналы CS, этого будет достаточно.

'''Замечание''' Насколько я могу судить по доступной литературе такая работа еще не была выполнена никем для доступных сегодня геномов коронавирусов, в частности, для нашего любимого SARS-CoV-2.  Биология любит неожиданности. Поэтому, ваш отрицательный результат тоже будет зачтен, если будут описаны предпринятые попытки и их результат. Положительные результат тоже будет зачтен `:)`

'''Выбор коронавируса''' На странице Genome NCBI (https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/) в окошке напишите Coronaviridae. В списке Из списка выбирайте любой, проверив что геном полный: в какой-то колонке должен быть полностью черный кружок.
Договоритесь как-нибудь кто какой геном берет. И пришлите списочек. SARS-CoV-2 предлагаю разыграть!!! Бета  коронавирусы в приоритете, т.к. наш любимый из этой группы. Посмотрел - в списке 52 разных коронавируса, на всех хватит.

Можно, если два человека будут работать с одним и тем же геномом. Результаты можно будет сравнить. Совместная работа не запрещена. Но если работаете совместно - вклад каждого обязан быть написан ПРЯМО.

[[ ../hints6 |'''Технические подсказки''']] 

ААл  


  





{{{#!wiki comment


Цель задания: поискать с помощью программы MEME сайт связывания транскрипционного фактора, регулирующего синтез пуринов у одной из гаммапротеобактерий.

== Этапы работы ==
 * Найдите в [[2016/4/task5/table|таблице]] против своей фамилии латинское название бактерии.
 * Зайдите на сайт Uniprot и откройте расширенный поиск (гиперссылка "Advanced" справа вверху)
 * В верхней паре окошек: слева выберите поле "Keyword", справа начните набирать слова "Purine biosynthesis". Система подскажет полное написание этого "ключевого слова" (т.н. ключевые слова в Uniprot берутся из фиксированного списка).
 * В следующей паре окошек слева выберите "Organism", в правое скопируйте род и вид бактерии из [[2016/4/task5/table|таблицы]]. В данном случае НЕ НАДО пользоваться подсказкой системы и добавлять что-то ещё! Дело в том, что для многих видов бактерий имеется большое количество штаммов, и легко нарваться на плохо аннотированный штамм, для которого ничего не  найдётся.
 * Щёлкните по изображению лупы, чтобы запустить поиск. Дождитесь результата.
 * На странице с результатом слева найдите гиперссылку "Reviewed" и щёлкните по ней (нам нужны только хорошо аннотированные белки).
 * В левой части страницы вы увидите список, озаглавленный "Popular organisms". Список состоит из мнемоник различных штаммов данного вида, после каждой мнемоники в скобках — число записей Swiss-Prot, аннотированных как участвующие в биосинтезе пуринов и относящихся к данному штамму (для некоторых видов штамм может быть всего один, в этом случае пропустите следующий пункт).
 * Выберите штамм, для которого имеется не менее 8 белков, аннотированных нужным образом, и щёлкните по соответствующей гиперссылке.
 * Если в полученном списке слишком много (более 10) белков, выберите 8–10 из них. Занесите в протокол: полное название выбранного штамма, его Uniprot-мнемонику, список выбранных белков (первые три столбца, из третьего — только выделенное жирным шрифтом), список имён генов (четвёртый столбец).
 * Найдите в ENA/EMBL полный геном выбранной бактерии. Проще всего это сделать так: зайти в Uniprot на страницу записи одного из белков (гиперссылка в первом столбце) и найти там слово EMBL, после чего пройти по гиперссылке "Genomic DNA". Скачайте полную запись EMBL (справа Download: TEXT).
 * Для каждого из генов выбранных белков: найдите этот ген в скачанной записи EMBL и запишите координаты Upstream-региона из 100 нуклеотидов (то есть 100 нуклеотидов с 5'-стороны от статового кодона гена). Не забывайте, что ген может быть как на прямой, так и на обратной цепи (относительно записи EMBL)!
 * Вырежьте из файла EMBL последовательности всех выбранных Upstream-регионов и поместите их в отдельный fasta-файл. Названия последовательностей придумайте сами, но они должны включать названия генов (указание: вместо seqret лучше использовать descseq, чтобы сразу переименовывать последовательности).
 * На kodomo выполните команду `ememe -help`. Определите, как запустить ememe так, чтобы поиск производился на обеих цепях ДНК и чтобы программа выдала 3 различных мотива (остальные параметры можно оставить по умолчанию). Обратите внимание на то, как задать имя поддиректории, куда будут положены результаты, в том числе html-файл.
 * Проведите поиск мотивов.

== Отчёт ==
Отчёт выкладывайте на свой веб-сайт. Отчёт должен включать:

 * Полное название бактерии (как в поле OS записей Uniprot), его мнемонику, сколько аннотированных (Reviewed) записей с ключевым словом "Purine biosynthesis" находится в Uniprot.
 * Список (лучше в виде таблицы) выбранных белков.
 * AC записи EMBL, описывающей геном бактерии.
 * Список генов с координатами каждого гена в записи EMBL (можно добавить к таблице белков, можно отдельно).
 * Гиперссылку на fasta-файл c вырезанными Upstream-регионами.
 * Гиперссылку на результат работы MEME.
 * Некоторые выводы: сколько хороших (e-value < 0.001) мотивов нашлось, во всех ли последовательностях представлен каждый из них, и вообще всё, заслуживающее внимания.

== Дополнительные задания ==
(Первые два имеет смысл делать, если при выполнении обязательного задания нашёлся хотя бы один хороший мотив).

 * Найдите в Интернете LOGO для сайта связывания пуринового репрессора ''E.coli'' и сравните его с LOGO вашего мотива (мотивов).
 * Проведите программой emast поиск найденных мотивов в полном геноме вашей бактерии. Если будут хорошие находки помимо тех, что попадают в Upstream-области выбранных генов, проаннотируйте их: попали они в кодирующие или в межгенные области? Если в межгенные, то какие гены могут регулироваться так же, как первоначально отобранные гены? '''Указание''': чтобы провести поиск программой emast в заданных последовательнсотях, нужно отредактировать файл meme.txt, выданный программой ememe, поменяв в строке `DATAFILE= MEME/meme.fasta` имя файла на нужное. Файл с последовательностями должен быть в fasta-формате. После этого отредактированный файл meme.txt (можно и с другим названием) подаётся на вход программе emast как "mfile" (читайте `tfm emast`).
 * Найдите в Интернете и изучите веб-интерфейс к MEME и связанным программам. Опишите свои впечатления.
}}}