Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2019

2а. Сигнал разрывной транскрипции коронавирусов

Литература

[1] (free) Zun˜iga et al., 2004, JOURNAL OF VIROLOGY (по таким данным находится в pubmed запросом: Zuniga[1au] 2004:2004[dp] JOURNAL OF VIROLOGY[jn] )

Экспериментальная работа по проверке роли CS последовательности (указана) у коронавируса TGEV, путем генно-инженерного мутагенеза CS. Читать аннотацию; во введении - гипотезы о механизме разрывной транскрипции; см. рисунки со схемами.

[2] (free) P.Masters, THE MOLECULAR BIOLOGY OF CORONAVIRUSES, ADVANCES IN VIRUS RESEARCH, VOL 66

Обзор по коронавирусам. Слишком большой, чтобы читать. Но на стр. 241 приведены консенсусы TRS для больших групп коронавирусов. Сходство найденного мотива с консенсусом поможет выбрать Можно сравнить найденные мотивы с консенсусом, может помочь в выборе из находок. Не следует относиться к консенсусам из стать как к абсолютной истине.

[3] (free) Davidson et al., 2020, Genome Medicine, https://doi.org/10.1186/s13073-020-00763-0

В работе получен транскриптом вируса SARS-CoV-2; также с помощью масс-спектроскопии получен протеом этого вируса. На рис. 1с и в табл. 1 приведены доказательства по данным транскриптомики и (неконкретно) границы sgmRNA. На рис. 1с мин. координата - начало разрыва при транскрипции, а не начало генома. Сами TRS или СS не выписаны(наверное, можно вычислить из сопроводительных данных). Еще две работы с транскриптомами SARS-CoV-2 см. ниже. В [5] последовательность CS выписана на стр.3

[4] (free) Kim et al, 2020, Cell

[5] (free) Nomburg et al., 2020, Genome Medicine

"Постараюсь сделать это до вечера 19го." Выполняю с опозданием, извините(

Шаг 1: подготовка входных последовательностей

  1. Скачайте файл с геномом вируса
  2. Составьте таблицу с координатами upstream областей перед геном полипротеина (orf1ab) и перед каждым поздним геном.
    • Поздние гены - те, которые идут после гена полипротеина.
    • upstream orf1ab: от 1 нукл до -1 относительно старта трансляции;
    • upstream позднего гена: от -N до -1 относительно старта трансляции;
      • Варианты для N (1) (формальный) N = 100; (2) (умный) N — расстояние до ближайшего к старту трансляции позднего гена кодона ATG в любой рамке. Ведь плохо, если в sgRNA до ATG позднего гена окажутся другие ATG, трансляция может начаться с них!
      • Последовательности не обязаны быть одинаковой длины
      • Важно: чем меньше область поиска, тем лучше (меньше) E-value мотива
      • Важно: сигнал CS может быть довольно далеко от старта трансляции, если на участке от CS до старта нет ATG с хорошим соответствием последовательности Козак
    • Таблицу с feature можно скачать по ссылкам assembly ... как файл GCF_........_feature_table
  3. Сделайте фаста файл с upstream областями (seqret)
    • Не забудьте дать последовательностям уникальные имена (лучше с номерами поздних генов)

Шаг 2. Нахождение мотива CS с помощью MEME

Задание творческое. У программы есть параметры, осмысленное изменение которых может повлиять на ответ и получить хороший результат.

Результат идеальный, есть находится один сигнал (TRS-L) в лидере - обязательно!!!; по одному сигналу перед каждым поздним геном; величины E-value приличные, <0.05. Идеал не всегда достижим:) Хороший результат - не перед всеми поздними генами - тоже приемлем.

  1. Используйте сервис MEME Suit http://meme-suite.org/index.html. Тот же пакет установлен на kodomo, но на сайте удобные help'ы

  2. Motif discovery => MEME

  3. Input the primary sequences это файл с последовательностями, в которых будут искаться мотивы

  4. Select the site distribution Советую выбрать 0 или 1 мотив в последовательности. Разрешить 0 надо, чтобы найти сначала хороший мотив, а потом найти что-то относительно похожее перед генами, для которых мотив не найден. Или думать в чем дело.

  5. Select the number of motifs Это число найденных мотивов. Начните с умолчательных трех. Потом можно и на 1 заменить.

  6. Advanced Обязательно.

  7. How wide can motifs be? Разрешенное число позиций в мотиве

  8. Can motif sites be on both strands? У нас НЕТ конечно.

  9. What should be used as the background model? 0-order значит, что использовать частоты букв во введенных последовательностях как базовые частоты. Мне кажется, это разумно. Есть способ и задать их в файле и upload файл

  10. How many sites must each motif have? Min=2 значит, что мотив находится, по крайней мере, два раза среди всех последовательностей. Max значит, что не нужны мотивы, встретившиеся во всех последовательностях больше max раз.

Использование MEME, установленной на kodomo

Команда назвается meme, уточнять значения параметров можно на сайте http://meme-suite.org/doc/meme.html?man_type=cmd. Если будут выпадать какие-то ошибки – сообщайте.

Названия требуемых опций:

а) фаста файл со входными последовательностями
Просто первый аргумент у обеих программ.

б) алфавит ДНК
meme -dna
ememe -snucleotide1 (но вроде определяется само)

в) Zero  or One Occurence per sequence
meme/ememe -mod zoops (можно не указывать, это default)

г) Number of (output) Motifs 3
meme/ememe -nmotifs 3 (default 1)

д) Minwidth 6
meme/ememe -minw 6 (default 8)

е) maxmotifwidth N
meme/ememe -maxw N (default 50)

ж) Search one strand only   ВАЖНО, на входе РНК. 
Это поведение по-умолчанию. Чтобы искать на двух цепях надо явно указать:
meme/ememe -revcomp

Еще имеет смысл указать -text, чтобы вывод был в виде текста, а не html.

Так что параметры, по большому счету, одинаковые. Если будет доступен сайт с документацией (ссылка в начале письма), то, все-такие, лучше использовать meme.

Опыт выполнения задания

Не скрою, я пробовал выполнить это задание. Вот мои наблюдения.

Что включить в отчёт

Подумайте, что взять из выдачи MEME.

Может позже напишу, но не гарантирую. AAl

Дополнительно

Её входные данные - выходные данные MEME. Это будет задание следующего занятия

2b. Сигнал Shine-Dalgarno в геноме бактерии

Литература

[1] (free) Schmitt et al., 2020, Frontiers in Microbiology

(по таким данным находится в pubmed запросом: Schmitt [1au] 2020:2020[dp] Frontiers in Microbiology[jn] )

Обзор по инициации трансляции у архей. Во введении есть про всех. См. Fig1 подпись.

[2] (free) Nakagawa et al., 2017, NAR, doi: 10.1093/nar/gkx124

Статья про инициацию трансляции у бактерий по механизмам, отличным от SD последовательности. Читайте аннотацию и начало введения. Эта информация поможет настроить параметры MEME и не огорчаться, если SD найдена не перед всеми генами)

[3] (free) Ma et al., 2002, JOURNAL OF BACTERIOLOGY, doi: 10.1128/jb.184.20.5733-5745.2002

В работе, в частности, указаны анти SD последовательности для нескольких десятков бактерий, табл. 1. Полезно для проверки найденных с помощью MEME мотивов.

Интересно почитать аннотацию и введение про задачу работы и заключение про дальнейшие перспективы поиска SD для аннотации геномов

[4] (free) Starmer et al., 2006, PLoS Comput Biol, DOI: 10.1371/journal.pcbi.0020057

Реализация планов [3] использовать SD для аннотации генов в геномах прокариот. Может быть полезна для интерпретации SD найденных далеко от инициаторного кодона.

"Постараюсь сделать это до вечера 19го." Выполняю с опозданием, извините(

ААл

Шаг 1. Прочитайте про последовательность Шайн-Дальгарно (SD)

Похоже я не успею рассказать на лекции.

Основа:

Шаг 2. Подготовка входных последовательностей

Выберите много десятков, скажем, сотню генов. Включите небольшие upstream генов (скажем, 20 нукл) в файл со входными последовательностями. Добавьте 3' концевой участок 16S РНК. Будьте внимательны к ориентациям посл-й и в зависимости от ориентаций входных последовательностей выберите параметр MEME, искать ли мотив на комплементарных цепочках.

Шаг 3. Поиск мотивов с помощью MEME

См. в разделе про сигналы разрывной транскрипции выше.


Ответ на вопрос.

1) Какие и сколько последов. вы подавали на вход MEME Сколько upstream'ов генов даёте на вход MEME? Думаю 40 достаточно. Выбирайте хорошо аннотированные гены, уж точно не hypothetical. Лучше те, для которых в записи .gb поле PE (protein existence) 1 или 2, максимум 3.

MEME ищет похожие последовательности. Может их искать на двух цепях, но в данной задаче совершенно ясно где и на какой цепи искать: в участках перед инициаторным кодоном генов, записанных на прямой цепи. Значит, если ген в геноме записан на комплементарной цепи, то надо нужный участок перевести в комплементарный (seqret умеет возвращать комплементарную последовательность). Длина посл. перед стартом трансляции небольшая, обычно около 7 (плюс сама посл. SD), но можно взять 20-30 нукл. на всякий случай.

Обязательно, во входных данных должен содержаться фрагмент rRNA, содержащий aSD. Само собой, от него надо взять комплементарную последовательность, чтобы он был похож на SD.

После MEME следует запретить искать на комплементарной цепи - это уменьшает область поиска.

Среди мотивов, найденных MEME, имеет смысл смотреть только те, для которых в компл. к рРНК есть находка!

2) Мотив не должен быть слишком длинным. Измените параметр MEME "длина мотива". Известно, что наиболее консервативная часть SD имеет последовательность GGAGG. Она имеет длину 5. Попробуйте ограничить длину мотива 6 - 9 (можно попробовать и 5) И число мотивов в одной последовательности - 0 или 1.

3) Если опять не получается, можно поискать последовательность GGAGG в upstream'ах генов с помощью fuzznuc (можно разрешить одно несовпадение). Если найдутся - изменить параметры MEME соответственно положению находок.

4) Если найден подходящий мотив - запустите FIMO по upstream всех генов (или отобранных вами 300). SD бывают не перед всеми генами. Посылаю статью про разнообразие SD и другие механизмы инициации трансляции у прокариот. Не обязательно читать все подряд. Читайте то, что понятно. См. рисунок в статье. Про SD и в wiki неплохо написано.

AAl