Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Указания

Мне кажется, подсказки дописал. Спрашивайте, если что-то непонятно

Задача a. - авантюрная. Сам не выполнял её ни разу. По литературе, знаю, что нахождение in silico промоторов - сайтов посадки сигма субъединицы РНК полимеразы - сложная задача. Успех не гарантирован. Зато интересно попробовать свои силы. Если выберете эту задачу, и будете делать всё добросовестно, то зачту, даже если найденный вами сигнал будет другим, или вообще результат - отрицательный, никакого сигнала не удалось найти.

Задачи b. и с. проверены предыдущими поколениями студентов. Тоже - творческие.

В связи с поздним завершением Указаний, deadline отодвигаю. Посмотрю на сколько - в зависимости от трудоёмкости заданий 3го и 4го практикумов блока Сигналы. До коллоквиума - 5е задание, конечно все обязательные задания должны быть завершены.

Успехов!

ААл

Нахождение сигналов de novo и из описание PWM с помощью MEME

Задание творческое. У программы есть параметры, осмысленное изменение которых может повлиять на ответ и получить хороший результат.

сервис MEME Suit

Можно использовать сервис MEME Suit http://meme-suite.org/index.html. Тот же пакет установлен на kodomo, но на сайте более удобные help'ы

  1. Motif discovery => MEME

  2. Input the primary sequences это файл с последовательностями, в которых будут искаться мотивы

  3. Select the site distribution Советую выбрать 0 или 1 мотив в одной последовательности. Разрешить 0 надо, чтобы найти сначала хороший мотив, а потом найти что-то относительно похожее перед генами, для которых мотив не найден. Или думать в чем дело.

  4. Select the number of motifs Это число найденных мотивов. Начните с умолчательных трех. Потом можно и на 1 заменить.

  5. Advanced Обязательно:

    1. How wide can motifs be? Разрешенное число позиций в мотиве

    2. Can motif sites be on both strands? Во всех трех задачах - НЕТ конечно, т.к. цепочка во входных последовательностей однозначно определена (тем, на какой цепочке ген для задач a. и b., а для задачи c. - на входе одна цепочка РНК)

    3. What should be used as the background model? 0-order значит, что использовать частоты букв во введенных последовательностях как базовые частоты. Мне кажется, это разумно. Есть способ и задать их в файле и upload файл

    4. How many sites must each motif have? Min=2 значит, что мотив находится, по крайней мере, два раза среди всех последовательностей. Max значит, что не нужны мотивы, встретившиеся во всех последовательностях больше max раз.

Использование MEME, установленной на kodomo

Команда называется meme, уточнять значения параметров можно на сайте http://meme-suite.org/doc/meme.html?man_type=cmd. Если будут выпадать какие-то ошибки – сообщайте.

Названия требуемых опций:

а) фаста файл со входными последовательностями
Просто первый аргумент программы.

б) алфавит ДНК
meme -dna

в) Zero  or One Occurence per sequence
meme -mod zoops (можно не указывать, это default)

г) Number of (output) Motifs 3
meme -nmotifs 3 (default 1)

д) Minwidth 6
meme -minw 6 (default 8)

е) maxmotifwidth N
meme -maxw N (default 50)

ж) Search one strand only   ВАЖНО. 
Это поведение по-умолчанию. Чтобы искать на двух цепях надо явно указать:
meme -revcomp

Еще имеет смысл указать -text, чтобы вывод был в виде текста, а не html.

Так что параметры, по большому счету, одинаковые. Если будет доступен сайт с документацией (ссылка в начале письма), то, всё-такие, лучше использовать meme.

Программа FIMO для поиска сигналов в последовательности по PWM этого сигнала

На kodomo установлена консольная версия FIMO. Запустить её можно с помощью команды fimo [options] <motif> <sequences>. Как и в случае meme, к программе отсутствует документация в системах man и info. Более того, эта программа не понимает даже опций -h, --help, -? и т.д. Единственный способ получить по ней хоть какую-то справку в командной строке – запустить её без параметров. Подробное описание всех опций доступно по адресу http://meme-suite.org/doc/fimo.html?man_type=cmd .

Например, можно искать находки только на одной цепи, указав опцию --norc.

Консольная версия FIMO понимает только один формат файла с мотивами и PWM. Этот формат подробно описан здесь: http://meme-suite.org/doc/meme-format.html . Утилита meme выдает результаты на STDOUT именно в этом формате, если указана опция -text. Печатается значительно больше информации, чем необходимо для описания мотивов, но эта информация не мешает программе fimo. Поэтому выдачу meme -text можно целиком передавать в качестве первого аргумента при вызове fimo. Если хочется запустить поиск не всех мотивов, а только какого-то одного, обратите внимание на опцию -motif.

Если Вы запускали meme без опции -text, точно то же самое можете найти в папке с выдачей программы, это файл с именем meme.txt.

Обратите внимание, при вызове meme и fimo опции необходимо указывать перед позиционными аргументами, иначе программы выдадут ошибку.

— ИР

Задача a.: поиск сигнала посадки sigma-субъединицы РНК-полимеразы

Шаг 1. Посмотрите литературу или интернет про промоторы у бактерий

Основа (см. обзор 2021 [1]; список лит. в конце задачи)

имеют разные последовательности, но структура: -35 -10 – одинакова

Цитата из [1]: "bacterial RNAPs require an initiation factor, sigma (σ), for promoter-specific DNA binding and unwinding. All bacteria possess a primary housekeeping σ factor that controls the transcription of essential genes during normal growth conditions. The vast majority of transcription initiation events in bacteria involve RNAP bound to the primary σ" RNAP - РНК полимераза, комплекс белков.

Шаг 2. Подготовка данных

Найдите свою бактерию в БД Genome на NCBI, перейдите на страницу последовательности в GeneBank.

Скачайте fasta файл с хромосомой ("send" => "Complete record", "File", "Fasta")

Скачайте особенности (features), среди них есть CDSs ("send" => "Complete record", "File", "Feature Table") Преобразуйте файл с Features в .tsv формат с координатами кодирующих последовательностей.

См. в подсказках к задаче .b более подробное описание.

Шаг 3. Как определить начало оперона

Цитата из [2]: "The automatic search for promoters upstream of TSS is known to be difficult due to variations in the distance between −10 and −35 boxes or between the TSS and the −10 element and sometimes degenerated consensus sequences."

Реалистично найти первый кодон первого гена оперона.

Способ (i): найдите опероны с помощью сервиса operon-mapper см. [3].

На вход достаточно подать последовательность генома (можно, одной хромосомы) - сервер сам аннотирует гены с помощью часто используемой для этого программы prokka. Дополнительно можно дать ему таблицу генов в одном из двух понимаемых им форматов (форматы понятны по примерам GBK Example и GFF Example). Тогда он использует эти аннотации. Обязателен адрес по которому сервис сообщит где лежит результат.

Результат - в файле по ссылке "Predicted operon"

Способ (ii): по хромосомной таблице найдите гены хороших белков (не hypothetical) такие, что расстояние до предыдущего (upstream) гена большое (на вскидку, предложу более 300 нукл.) или upstream ген лежит на комплементарной цепочке. С большой вероятностью, большинство из таких генов - первые гены из оперона.

Шаг 4. Создайте fasta файл с областями для поиска сигнала

Прикидка размер upstream области перед первым кодоном первого гена оперона.

От старта транскрипции (TSS) до начала трансляции типично много десятков пар нуклеотидов, положим - 100. В статье [2] для генома конкретной бактерии обсуждается это расстояние. В этой 5' не транслируемой области (5'UTR) расположены сигналы, регулирующие транскрипцию оперона, и трансляцию гена.

Промотор - это участок перед TSS. Сайты связывания σ субъединицы называются -10 и -35. Конечно, это не значит, что в геномах всех бактерий расстояние именно такое. Поэтому добавим ещё 50 пар нуклеотидов на промотор.

Итого, предлагаю взять 150 букв (пар нуклеотидов ДНК) перед первым кодоном первого гена оперона

Шаг 5. Выделение последовательностей для материала обучения

Предлагаю, штук 30 самых правдоподобных.

Шаг 6. Поиск сигналов в материале обучения с помощью MEME

Разрешите MEME находить несколько (скажем, три) сигналов в связи со сложностью задачи. Из них выберите наиболее правдоподобный.

Шаг 7. Поиск выбранного сигнала в материале для тестирования с помощью FIMO

Литература

[1] (free) Chen, James et al. “Diverse and unified mechanisms of transcription initiation in bacteria.” Nature reviews. Microbiology vol. 19,2 (2021): 95-109. doi:10.1038/s41579-020-00450-2

[2] (free)Soutourina, Olga et al. “Genome-Wide Transcription Start Site Mapping and Promoter Assignments to a Sigma Factor in the Human Enteropathogen Clostridioides difficile.” Frontiers in microbiology vol. 11 1939. 13 Aug. 2020, doi:10.3389/fmicb.2020.01939 Исследование сигналов в промоторе, определяемом на основе эксперимента, позволяющего определять 5'концы РНК.

[3] Taboada, Blanca et al. “Operon-mapper: a web server for precise operon identification in bacterial and archaeal genomes.” Bioinformatics (Oxford, England) vol. 34,23 (2018): 4118-4120. doi:10.1093/bioinformatics/bty496

Описание алгоритма предсказания оперонов в геноме бактерии и сервиса, в котором реализован этот алгоритм.


Задача b.: поиск сигнала посадки рибосомы у прокариот - последовательность SD

Шаг 1. Прочитайте про последовательность Шайн-Дальгарно (SD)

Основа:

Шаг 2. Подготовка входных последовательностей

Скачайте fasta файл с хромосомой ("send" => "Complete record", "File", "Fasta") Скачайте особенности (features), среди них есть все кодирующие последовательности CDSs ("send" => "Complete record", "File", "Feature Table")

Преобразуйте файл с Features в формат с координатами кодирующих последовательностей. Можно использовать мой скрипт features2CDSs.py

Мои скрипты выдают инфо при запуске без параметров; при запуск с опцией -h выдаётся список параметров программы.

Выберите несколько сот "хороших" кодирующих последовательностей. "Хорошая" значит есть надежда, что ген хорошо аннотирован: не гипотетический, достаточно длинный (скажем, более 300 п.н.). Указанные числа CDSs условны.

Материал обучения - несколько десятков, до сотни генов. Включите небольшие upstream генов (скажем, 20 нукл) в файл со входными последовательностями. Добавьте 3' концевой участок 16S РНК. Будьте внимательны к ориентациям посл-й и в зависимости от ориентаций входных последовательностей выберите параметр MEME, искать ли мотив на комплементарных цепочках.

Материал для тестирования - оставшиеся гены.

Шаг 3. Поиск мотивов с помощью MEME

См. в разделе 2a выше.

Шаг 4. Поиск SD в выборке для тестирования с помошью FIMO

мин_координата

макс_координата

ориентация

ID_фрагмента

остальное

В качестве ID_фрагмента можно оставить locus_tag гена; остальное – product.


Ответ на вопросы (из 2021 года).

1) Какие и сколько последов. вы подавали на вход MEME Сколько upstream'ов генов даёте на вход MEME? Думаю 40 достаточно. Выбирайте хорошо аннотированные гены, уж точно не hypothetical. Лучше те, для которых в записи .gb поле PE (protein existence) 1 или 2, максимум 3.

MEME ищет похожие последовательности. Может их искать на двух цепях, но в данной задаче совершенно ясно где и на какой цепи искать: в участках перед инициаторным кодоном генов, записанных на прямой цепи. Значит, если ген в геноме записан на комплементарной цепи, то надо нужный участок перевести в комплементарный (seqret умеет возвращать комплементарную последовательность). Длина посл. перед стартом трансляции небольшая, обычно около 7 (плюс сама посл. SD), но можно взять 20-30 нукл. на всякий случай.

Обязательно, во входных данных должен содержаться фрагмент rRNA, содержащий aSD. Само собой, от него надо взять комплементарную последовательность, чтобы он был похож на SD.

MEME следует запретить искать на комплементарной цепи - это уменьшает область поиска.

Среди мотивов, найденных MEME, имеет смысл смотреть только те, для которых в компл. к рРНК есть находка - для классической SD.

2) Мотив не должен быть слишком длинным. Измените параметр MEME "длина мотива". Известно, что наиболее консервативная часть SD имеет последовательность GGAGG. Она имеет длину 5. Попробуйте ограничить длину мотива 6 - 9 (можно попробовать и 5) И число мотивов в одной последовательности - 0 или 1.

3) Если опять не получается, можно поискать последовательность GGAGG в upstream'ах генов с помощью fuzznuc (можно разрешить одно несовпадение). Если найдутся - изменить параметры MEME соответственно положению находок.

4) Если найден подходящий мотив - запустите FIMO по upstream всех генов (или отобранных вами 300). SD бывают не перед всеми генами. Посылаю статью про разнообразие SD и другие механизмы инициации трансляции у прокариот. Не обязательно читать все подряд. Читайте то, что понятно. См. рисунок в статье. Про SD и в wiki неплохо написано.

Для отобранных генов создайте список областей, в которых имеет смысл искать ШД. Помните, что сигнал слабый, поэтому стоит сузить область поиска, но так, чтобы не пропустить много настоящих ШД! Для этого и надо прочитать про ШД. Нужен файл с полями: мин_координата; макс_координата;ориентация;ID_фрагмента;остальное

В качестве ID_фрагмента можно оставить AС гена; остальное – product.

Создайте fasta файл с областями поиска. Используйте мой скрипт fragments2fasta.py. Его запускать на kodomo, т.к. использует bash и EMBOSS команду seqret.

Не перепутайте с указанием области поиска перед геном, расположенным на противоположной цепи! Так же сделайте файл с областями поиска для всех генов. Границы по отношению к старту трансляции можно немножко расширить.

Литература про SD

[1] (free) Schmitt et al., 2020, Frontiers in Microbiology

(по таким данным находится в pubmed запросом: Schmitt [1au] 2020:2020[dp] Frontiers in Microbiology[jn] )

Обзор по инициации трансляции у архей. Во введении есть про всех. См. Fig1 подпись.

[2] (free) Nakagawa et al., 2017, NAR, doi: 10.1093/nar/gkx124

Статья про инициацию трансляции у бактерий по механизмам, отличным от SD последовательности. Читайте аннотацию и начало введения. Эта информация поможет настроить параметры MEME и не огорчаться, если SD найдена не перед всеми генами)

[3] (free) Ma et al., 2002, JOURNAL OF BACTERIOLOGY, doi: 10.1128/jb.184.20.5733-5745.2002

В работе, в частности, указаны анти SD последовательности для нескольких десятков бактерий, табл. 1. Полезно для проверки найденных с помощью MEME мотивов.

Интересно почитать аннотацию и введение про задачу работы и заключение про дальнейшие перспективы поиска SD для аннотации геномов

[4] (free) Starmer et al., 2006, PLoS Comput Biol, DOI: 10.1371/journal.pcbi.0020057

Реализация планов [3] использовать SD для аннотации генов в геномах прокариот. Может быть полезна для интерпретации SD найденных далеко от инициаторного кодона.

[5] (free) Wen JD, Kuo ST, Chou HD. The diversity of Shine-Dalgarno sequences sheds light on the evolution of translation initiation. RNA Biol. 2021;18(11):1489-1500. doi:10.1080/15476286.2020.1861406

Прошлогодний обзор инициации трансляции у бактерий. На рис.2 изображены варианты SD+ и SD- инициации трансляции. Мне показалось, что написан обзор хорошо. Впрочем, читал только введение.


Задача c.: поиск cигналов разрывной транскрипции у геноме коронавируса

Шаг 1. Прочитайте про транскрипцию мРНК поздних генов коронавирусов

Основа:

Шаг 2: выберите вид коронавируса и подготовьте входные данные из генома одного штамма

Про методы см. подсказки к задаче 2.b

  1. Скачайте файл с геномом вируса
  2. Составьте таблицу с координатами upstream областей перед геном полипротеина (orf1ab) и перед каждым поздним геном.
    • Поздние гены - те, которые идут после гена полипротеина.
    • upstream orf1ab: от 1 нукл до -1 относительно старта трансляции;
    • upstream позднего гена: от -N до -1 относительно старта трансляции;
      • Варианты для N (1) (формальный) N = 100; (2) (умный) N — расстояние до ближайшего к старту трансляции позднего гена кодона ATG в любой рамке. Ведь плохо, если в sgRNA до ATG позднего гена окажутся другие ATG, трансляция может начаться с них!
      • Последовательности не обязаны быть одинаковой длины
      • Важно: чем меньше область поиска, тем лучше (меньше) E-value мотива
      • Важно: сигнал CS может быть довольно далеко от старта трансляции, если на участке от CS до старта нет ATG с хорошим соответствием последовательности Козак
    • Таблицу с feature можно скачать по ссылкам assembly ... как файл GCF_........_feature_table
  3. Сделайте фаста файл с upstream областями (seqret)
    • Не забудьте дать последовательностям уникальные имена (лучше с номерами поздних генов)

Шаг 3. Нахождение мотива CS с помощью MEME

Задание творческое. У программы есть параметры, осмысленное изменение которых может повлиять на ответ и получить хороший результат.

Результат идеальный, есть находится один сигнал (TRS-L) в лидере - обязательно!!!; и по одному сигналу перед каждым поздним геном; величины E-value приличные, <0.05. Идеал не всегда достижим:) Хороший результат - не перед всеми поздними генами - тоже приемлем.

Используйте MEME, см. в верхней части страницы описание параметров

Названия требуемых опций:

а) фаста файл со входными последовательностями
Просто первый аргумент у обеих программ.

б) алфавит ДНК
meme -dna
ememe -snucleotide1 (но вроде определяется само)

в) Zero  or One Occurence per sequence
meme/ememe -mod zoops (можно не указывать, это default)

г) Number of (output) Motifs 3
meme/ememe -nmotifs 3 (default 1)

д) Minwidth 6
meme/ememe -minw 6 (default 8)

е) maxmotifwidth N
meme/ememe -maxw N (default 50)

ж) Search one strand only   ВАЖНО, на входе РНК. 
Это поведение по-умолчанию. Чтобы искать на двух цепях надо явно указать:
meme/ememe -revcomp

Еще имеет смысл указать -text, чтобы вывод был в виде текста, а не html.

Так что параметры, по большому счету, одинаковые. Если будет доступен сайт с документацией (ссылка в начале письма), то, все-такие, лучше использовать meme.

Опыт выполнения задания

Не скрою, я пробовал выполнить это задание. Вот мои наблюдения.

Шаг 3. Проверка полученной PWM сигнала

Используйте FIMO против полного генома вашего вируса.

2020/4/hints7 (последним исправлял пользователь aba 2022-03-29 17:24:07)