Учебная страница курса биоинформатики,
год поступления 2020
Указания
Мне кажется, подсказки дописал. Спрашивайте, если что-то непонятно
Задача a. - авантюрная. Сам не выполнял её ни разу. По литературе, знаю, что нахождение in silico промоторов - сайтов посадки сигма субъединицы РНК полимеразы - сложная задача. Успех не гарантирован. Зато интересно попробовать свои силы. Если выберете эту задачу, и будете делать всё добросовестно, то зачту, даже если найденный вами сигнал будет другим, или вообще результат - отрицательный, никакого сигнала не удалось найти.
Задачи b. и с. проверены предыдущими поколениями студентов. Тоже - творческие.
В связи с поздним завершением Указаний, deadline отодвигаю. Посмотрю на сколько - в зависимости от трудоёмкости заданий 3го и 4го практикумов блока Сигналы. До коллоквиума - 5е задание, конечно все обязательные задания должны быть завершены.
Успехов!
ААл
Нахождение сигналов de novo и из описание PWM с помощью MEME
Задание творческое. У программы есть параметры, осмысленное изменение которых может повлиять на ответ и получить хороший результат.
сервис MEME Suit
Можно использовать сервис MEME Suit http://meme-suite.org/index.html. Тот же пакет установлен на kodomo, но на сайте более удобные help'ы
Motif discovery => MEME
Input the primary sequences это файл с последовательностями, в которых будут искаться мотивы
Select the site distribution Советую выбрать 0 или 1 мотив в одной последовательности. Разрешить 0 надо, чтобы найти сначала хороший мотив, а потом найти что-то относительно похожее перед генами, для которых мотив не найден. Или думать в чем дело.
Select the number of motifs Это число найденных мотивов. Начните с умолчательных трех. Потом можно и на 1 заменить.
Advanced Обязательно:
How wide can motifs be? Разрешенное число позиций в мотиве
Can motif sites be on both strands? Во всех трех задачах - НЕТ конечно, т.к. цепочка во входных последовательностей однозначно определена (тем, на какой цепочке ген для задач a. и b., а для задачи c. - на входе одна цепочка РНК)
What should be used as the background model? 0-order значит, что использовать частоты букв во введенных последовательностях как базовые частоты. Мне кажется, это разумно. Есть способ и задать их в файле и upload файл
How many sites must each motif have? Min=2 значит, что мотив находится, по крайней мере, два раза среди всех последовательностей. Max значит, что не нужны мотивы, встретившиеся во всех последовательностях больше max раз.
Использование MEME, установленной на kodomo
Команда называется meme, уточнять значения параметров можно на сайте http://meme-suite.org/doc/meme.html?man_type=cmd. Если будут выпадать какие-то ошибки – сообщайте.
Названия требуемых опций:
а) фаста файл со входными последовательностями Просто первый аргумент программы. б) алфавит ДНК meme -dna в) Zero or One Occurence per sequence meme -mod zoops (можно не указывать, это default) г) Number of (output) Motifs 3 meme -nmotifs 3 (default 1) д) Minwidth 6 meme -minw 6 (default 8) е) maxmotifwidth N meme -maxw N (default 50) ж) Search one strand only ВАЖНО. Это поведение по-умолчанию. Чтобы искать на двух цепях надо явно указать: meme -revcomp
Еще имеет смысл указать -text, чтобы вывод был в виде текста, а не html.
Так что параметры, по большому счету, одинаковые. Если будет доступен сайт с документацией (ссылка в начале письма), то, всё-такие, лучше использовать meme.
Программа FIMO для поиска сигналов в последовательности по PWM этого сигнала
- Если MEME suite работает. Самый простой вариант
- Запустите MEME (как вы делали ранее)
- MEME HTML output
- Submit/Download
- FIMO submit
- Input the sequences: Upload sequences. Можно одну (например, если поиск во всём геноме) или несколько (если поиск - в ограниченных участках генома, например, в промоторах) в одном фаста файле)
Замечание. Вместо результата MEME, можно загрузить свою матрицу PWM или паттерн. Форматы описаны в help'е (нажать "?")
- Advanced options
- scan given strand only
- Подбирайте порог E-value так, чтобы получить ожидаемый результат
- Start
На kodomo установлена консольная версия FIMO. Запустить её можно с помощью команды fimo [options] <motif> <sequences>. Как и в случае meme, к программе отсутствует документация в системах man и info. Более того, эта программа не понимает даже опций -h, --help, -? и т.д. Единственный способ получить по ней хоть какую-то справку в командной строке – запустить её без параметров. Подробное описание всех опций доступно по адресу http://meme-suite.org/doc/fimo.html?man_type=cmd .
Например, можно искать находки только на одной цепи, указав опцию --norc.
Консольная версия FIMO понимает только один формат файла с мотивами и PWM. Этот формат подробно описан здесь: http://meme-suite.org/doc/meme-format.html . Утилита meme выдает результаты на STDOUT именно в этом формате, если указана опция -text. Печатается значительно больше информации, чем необходимо для описания мотивов, но эта информация не мешает программе fimo. Поэтому выдачу meme -text можно целиком передавать в качестве первого аргумента при вызове fimo. Если хочется запустить поиск не всех мотивов, а только какого-то одного, обратите внимание на опцию -motif.
Если Вы запускали meme без опции -text, точно то же самое можете найти в папке с выдачей программы, это файл с именем meme.txt.
Обратите внимание, при вызове meme и fimo опции необходимо указывать перед позиционными аргументами, иначе программы выдадут ошибку.
— ИР
Задача a.: поиск сигнала посадки sigma-субъединицы РНК-полимеразы
Шаг 1. Посмотрите литературу или интернет про промоторы у бактерий
Основа (см. обзор 2021 [1]; список лит. в конце задачи)
- Гены белков у прокариот собраны в опероны, участки ДНК, которые транскрибируются в одну мРНК, которая может содержать несколько или один ген белка.
- Комплекс белков, составляющих РНК-полимеразу начинает cобираться после связывания σ-фактора со специальной последовательностью, состоящую из двух участков, перед стартом транскрипции (TSS) в промоторе гена. В узком смысле слова, промотор и есть участок, с которым связывается σ-фактор, а не большой участок перед TSS. Смысл этого термина понимается по контексту.
- РНК-полимераза может использовать разные σ-субъединицы в зависимости от окружения и своего состояния.
- Промоторы разных σ-субъединиц (=σ-факторы)
имеют разные последовательности, но структура: -35 -10 – одинакова
- Выделяется σ-фактор "домашнего хозяйства”, он обслуживает большинство генов, постоянно необходимых бактерии, т.н. генов "домашнего хозяйства".
Цитата из [1]: "bacterial RNAPs require an initiation factor, sigma (σ), for promoter-specific DNA binding and unwinding. All bacteria possess a primary housekeeping σ factor that controls the transcription of essential genes during normal growth conditions. The vast majority of transcription initiation events in bacteria involve RNAP bound to the primary σ" RNAP - РНК полимераза, комплекс белков.
Шаг 2. Подготовка данных
Найдите свою бактерию в БД Genome на NCBI, перейдите на страницу последовательности в GeneBank.
Скачайте fasta файл с хромосомой ("send" => "Complete record", "File", "Fasta")
Скачайте особенности (features), среди них есть CDSs ("send" => "Complete record", "File", "Feature Table") Преобразуйте файл с Features в .tsv формат с координатами кодирующих последовательностей.
См. в подсказках к задаче .b более подробное описание.
Шаг 3. Как определить начало оперона
Цитата из [2]: "The automatic search for promoters upstream of TSS is known to be difficult due to variations in the distance between −10 and −35 boxes or between the TSS and the −10 element and sometimes degenerated consensus sequences."
Реалистично найти первый кодон первого гена оперона.
Способ (i): найдите опероны с помощью сервиса operon-mapper см. [3].
На вход достаточно подать последовательность генома (можно, одной хромосомы) - сервер сам аннотирует гены с помощью часто используемой для этого программы prokka. Дополнительно можно дать ему таблицу генов в одном из двух понимаемых им форматов (форматы понятны по примерам GBK Example и GFF Example). Тогда он использует эти аннотации. Обязателен адрес по которому сервис сообщит где лежит результат.
Результат - в файле по ссылке "Predicted operon"
Способ (ii): по хромосомной таблице найдите гены хороших белков (не hypothetical) такие, что расстояние до предыдущего (upstream) гена большое (на вскидку, предложу более 300 нукл.) или upstream ген лежит на комплементарной цепочке. С большой вероятностью, большинство из таких генов - первые гены из оперона.
Шаг 4. Создайте fasta файл с областями для поиска сигнала
Прикидка размер upstream области перед первым кодоном первого гена оперона.
От старта транскрипции (TSS) до начала трансляции типично много десятков пар нуклеотидов, положим - 100. В статье [2] для генома конкретной бактерии обсуждается это расстояние. В этой 5' не транслируемой области (5'UTR) расположены сигналы, регулирующие транскрипцию оперона, и трансляцию гена.
Промотор - это участок перед TSS. Сайты связывания σ субъединицы называются -10 и -35. Конечно, это не значит, что в геномах всех бактерий расстояние именно такое. Поэтому добавим ещё 50 пар нуклеотидов на промотор.
Итого, предлагаю взять 150 букв (пар нуклеотидов ДНК) перед первым кодоном первого гена оперона
Шаг 5. Выделение последовательностей для материала обучения
Предлагаю, штук 30 самых правдоподобных.
Шаг 6. Поиск сигналов в материале обучения с помощью MEME
Разрешите MEME находить несколько (скажем, три) сигналов в связи со сложностью задачи. Из них выберите наиболее правдоподобный.
Шаг 7. Поиск выбранного сигнала в материале для тестирования с помощью FIMO
Литература
[1] (free) Chen, James et al. “Diverse and unified mechanisms of transcription initiation in bacteria.” Nature reviews. Microbiology vol. 19,2 (2021): 95-109. doi:10.1038/s41579-020-00450-2
[2] (free)Soutourina, Olga et al. “Genome-Wide Transcription Start Site Mapping and Promoter Assignments to a Sigma Factor in the Human Enteropathogen Clostridioides difficile.” Frontiers in microbiology vol. 11 1939. 13 Aug. 2020, doi:10.3389/fmicb.2020.01939 Исследование сигналов в промоторе, определяемом на основе эксперимента, позволяющего определять 5'концы РНК.
[3] Taboada, Blanca et al. “Operon-mapper: a web server for precise operon identification in bacterial and archaeal genomes.” Bioinformatics (Oxford, England) vol. 34,23 (2018): 4118-4120. doi:10.1093/bioinformatics/bty496
Описание алгоритма предсказания оперонов в геноме бактерии и сервиса, в котором реализован этот алгоритм.
Задача b.: поиск сигнала посадки рибосомы у прокариот - последовательность SD
Шаг 1. Прочитайте про последовательность Шайн-Дальгарно (SD)
Основа:
- SD находится перед ATG кодоном гена белка на небольшом расстоянии от ATG: 6-8 нукл.
- Комплементарная к SD последоватальность находится на 3' конце 16S РНК. За счёт этой комплементарности малая субъединица рибосомы и связывается с SD на мРНК перед ATG и в этом месте собирается инициаторный комплекс для трансляции. Трансляция начинается без сканирования до инициаторного кодона, т.к. инициаторный ATG расположен рядом, с него и начинается трансляция. Понятно, комплементарность может быть не полная.
- На заметку: у прокариот кроме ATG бывают и другие инициаторные кодоны (реже, чем ATG). В таблицах генетического кода на NCBI указано, какие ещё встречаются в каких геномах.
- SD определяется не перед каждым геном, но, все-таки, перед большей частью. Две причины:
- неправильная аннотация стартового кодона - довольно распространенная ошибка
- найдены и другие механизмы инициации трансляции у прокариот — без SD (см.[5] и др. литературу ниже); поэтому даже отрицательный результат поиска принимается при наличии разумного обоснования и обсуждения
- Консенсус SD для бактерий довольно консервативен (м.б. потому, что рибосомальные РНК консервативны, а SD подстраиваются под них). Если найдёте SD близкой бактерии в интернете, то может помочь вам в поиске.
Шаг 2. Подготовка входных последовательностей
- Нужна последовательность одной хромосомы бактерии в формате fasta и хромосомная таблица (Feature table) для этой хромосомы. Напоминаю как получить их заново:
Найдите свою бактерию в БД Genomes на NCBI, перейдите на страницу последовательности в GeneBank
Скачайте fasta файл с хромосомой ("send" => "Complete record", "File", "Fasta") Скачайте особенности (features), среди них есть все кодирующие последовательности CDSs ("send" => "Complete record", "File", "Feature Table")
Преобразуйте файл с Features в формат с координатами кодирующих последовательностей. Можно использовать мой скрипт features2CDSs.py
Мои скрипты выдают инфо при запуске без параметров; при запуск с опцией -h выдаётся список параметров программы.
Выберите несколько сот "хороших" кодирующих последовательностей. "Хорошая" значит есть надежда, что ген хорошо аннотирован: не гипотетический, достаточно длинный (скажем, более 300 п.н.). Указанные числа CDSs условны.
Материал обучения - несколько десятков, до сотни генов. Включите небольшие upstream генов (скажем, 20 нукл) в файл со входными последовательностями. Добавьте 3' концевой участок 16S РНК. Будьте внимательны к ориентациям посл-й и в зависимости от ориентаций входных последовательностей выберите параметр MEME, искать ли мотив на комплементарных цепочках.
Материал для тестирования - оставшиеся гены.
Шаг 3. Поиск мотивов с помощью MEME
См. в разделе 2a выше.
Шаг 4. Поиск SD в выборке для тестирования с помошью FIMO
мин_координата |
макс_координата |
ориентация |
ID_фрагмента |
остальное |
В качестве ID_фрагмента можно оставить locus_tag гена; остальное – product.
Создайте fasta файл с областями поиска. Можно использовать мой скрипт fragments2fasta.py. Его запускать на kodomo, т.к. использует bash и EMBOSS команду seqret. Имейте ввиду, что входные поля min_coord и max_coord должны удовлетворять условию: min_coord < max_coord. Результат - последовательность фрагмента ДНК при указании ori = -1 будет по комплементарной цепи.
- Не перепутайте с указанием области поиска перед геном, расположенным на противоположной цепи!
Так же сделайте файл с областями поиска для всех генов. Границы по отношению к старту трансляции можно немножко расширить.
Ответ на вопросы (из 2021 года).
1) Какие и сколько последов. вы подавали на вход MEME Сколько upstream'ов генов даёте на вход MEME? Думаю 40 достаточно. Выбирайте хорошо аннотированные гены, уж точно не hypothetical. Лучше те, для которых в записи .gb поле PE (protein existence) 1 или 2, максимум 3.
MEME ищет похожие последовательности. Может их искать на двух цепях, но в данной задаче совершенно ясно где и на какой цепи искать: в участках перед инициаторным кодоном генов, записанных на прямой цепи. Значит, если ген в геноме записан на комплементарной цепи, то надо нужный участок перевести в комплементарный (seqret умеет возвращать комплементарную последовательность). Длина посл. перед стартом трансляции небольшая, обычно около 7 (плюс сама посл. SD), но можно взять 20-30 нукл. на всякий случай.
Обязательно, во входных данных должен содержаться фрагмент rRNA, содержащий aSD. Само собой, от него надо взять комплементарную последовательность, чтобы он был похож на SD.
MEME следует запретить искать на комплементарной цепи - это уменьшает область поиска.
Среди мотивов, найденных MEME, имеет смысл смотреть только те, для которых в компл. к рРНК есть находка - для классической SD.
2) Мотив не должен быть слишком длинным. Измените параметр MEME "длина мотива". Известно, что наиболее консервативная часть SD имеет последовательность GGAGG. Она имеет длину 5. Попробуйте ограничить длину мотива 6 - 9 (можно попробовать и 5) И число мотивов в одной последовательности - 0 или 1.
3) Если опять не получается, можно поискать последовательность GGAGG в upstream'ах генов с помощью fuzznuc (можно разрешить одно несовпадение). Если найдутся - изменить параметры MEME соответственно положению находок.
4) Если найден подходящий мотив - запустите FIMO по upstream всех генов (или отобранных вами 300). SD бывают не перед всеми генами. Посылаю статью про разнообразие SD и другие механизмы инициации трансляции у прокариот. Не обязательно читать все подряд. Читайте то, что понятно. См. рисунок в статье. Про SD и в wiki неплохо написано.
Для отобранных генов создайте список областей, в которых имеет смысл искать ШД. Помните, что сигнал слабый, поэтому стоит сузить область поиска, но так, чтобы не пропустить много настоящих ШД! Для этого и надо прочитать про ШД. Нужен файл с полями: мин_координата; макс_координата;ориентация;ID_фрагмента;остальное
В качестве ID_фрагмента можно оставить AС гена; остальное – product.
Создайте fasta файл с областями поиска. Используйте мой скрипт fragments2fasta.py. Его запускать на kodomo, т.к. использует bash и EMBOSS команду seqret.
Не перепутайте с указанием области поиска перед геном, расположенным на противоположной цепи! Так же сделайте файл с областями поиска для всех генов. Границы по отношению к старту трансляции можно немножко расширить.
Литература про SD
[1] (free) Schmitt et al., 2020, Frontiers in Microbiology
(по таким данным находится в pubmed запросом: Schmitt [1au] 2020:2020[dp] Frontiers in Microbiology[jn] )
Обзор по инициации трансляции у архей. Во введении есть про всех. См. Fig1 подпись.
[2] (free) Nakagawa et al., 2017, NAR, doi: 10.1093/nar/gkx124
Статья про инициацию трансляции у бактерий по механизмам, отличным от SD последовательности. Читайте аннотацию и начало введения. Эта информация поможет настроить параметры MEME и не огорчаться, если SD найдена не перед всеми генами)
[3] (free) Ma et al., 2002, JOURNAL OF BACTERIOLOGY, doi: 10.1128/jb.184.20.5733-5745.2002
В работе, в частности, указаны анти SD последовательности для нескольких десятков бактерий, табл. 1. Полезно для проверки найденных с помощью MEME мотивов.
Интересно почитать аннотацию и введение про задачу работы и заключение про дальнейшие перспективы поиска SD для аннотации геномов
[4] (free) Starmer et al., 2006, PLoS Comput Biol, DOI: 10.1371/journal.pcbi.0020057
Реализация планов [3] использовать SD для аннотации генов в геномах прокариот. Может быть полезна для интерпретации SD найденных далеко от инициаторного кодона.
[5] (free) Wen JD, Kuo ST, Chou HD. The diversity of Shine-Dalgarno sequences sheds light on the evolution of translation initiation. RNA Biol. 2021;18(11):1489-1500. doi:10.1080/15476286.2020.1861406
Прошлогодний обзор инициации трансляции у бактерий. На рис.2 изображены варианты SD+ и SD- инициации трансляции. Мне показалось, что написан обзор хорошо. Впрочем, читал только введение.
Задача c.: поиск cигналов разрывной транскрипции у геноме коронавируса
Шаг 1. Прочитайте про транскрипцию мРНК поздних генов коронавирусов
Основа:
У коронавирусов геном представлен РНК положительной полярности +RNA. Это значит, что гены белков могут транслироваться прямо с неё. Что и происходит, т.к. эта РНК уже в капсиде снабжена кэпом и имеет полиA хвост. Однако в клетке хозяина с неё транслируется один белок - полипротеин с одного гена. Полипротеин автокаталитически расщепляется на несколько отдельных "ранних" вирусных белков. Среди них - RdRp - РНК зависимая РНК полимераза, нужная для репликации РНК.
- мРНК каждого из остальных - "поздних" вирусных белков - называемая sgRNA - образуется в процессе репликации +RNA в -RNA. При репликации, которая начинается как всегда с 5' конца +RNA, встретив сигнал
Шаг 2: выберите вид коронавируса и подготовьте входные данные из генома одного штамма
Про методы см. подсказки к задаче 2.b
- Скачайте файл с геномом вируса
- Составьте таблицу с координатами upstream областей перед геном полипротеина (orf1ab) и перед каждым поздним геном.
- Поздние гены - те, которые идут после гена полипротеина.
- upstream orf1ab: от 1 нукл до -1 относительно старта трансляции;
- upstream позднего гена: от -N до -1 относительно старта трансляции;
- Варианты для N (1) (формальный) N = 100; (2) (умный) N — расстояние до ближайшего к старту трансляции позднего гена кодона ATG в любой рамке. Ведь плохо, если в sgRNA до ATG позднего гена окажутся другие ATG, трансляция может начаться с них!
- Последовательности не обязаны быть одинаковой длины
- Важно: чем меньше область поиска, тем лучше (меньше) E-value мотива
- Важно: сигнал CS может быть довольно далеко от старта трансляции, если на участке от CS до старта нет ATG с хорошим соответствием последовательности Козак
- Таблицу с feature можно скачать по ссылкам assembly ... как файл GCF_........_feature_table
- Сделайте фаста файл с upstream областями (seqret)
- Не забудьте дать последовательностям уникальные имена (лучше с номерами поздних генов)
Шаг 3. Нахождение мотива CS с помощью MEME
Задание творческое. У программы есть параметры, осмысленное изменение которых может повлиять на ответ и получить хороший результат.
Результат идеальный, есть находится один сигнал (TRS-L) в лидере - обязательно!!!; и по одному сигналу перед каждым поздним геном; величины E-value приличные, <0.05. Идеал не всегда достижим:) Хороший результат - не перед всеми поздними генами - тоже приемлем.
Используйте MEME, см. в верхней части страницы описание параметров
Названия требуемых опций:
а) фаста файл со входными последовательностями Просто первый аргумент у обеих программ. б) алфавит ДНК meme -dna ememe -snucleotide1 (но вроде определяется само) в) Zero or One Occurence per sequence meme/ememe -mod zoops (можно не указывать, это default) г) Number of (output) Motifs 3 meme/ememe -nmotifs 3 (default 1) д) Minwidth 6 meme/ememe -minw 6 (default 8) е) maxmotifwidth N meme/ememe -maxw N (default 50) ж) Search one strand only ВАЖНО, на входе РНК. Это поведение по-умолчанию. Чтобы искать на двух цепях надо явно указать: meme/ememe -revcomp
Еще имеет смысл указать -text, чтобы вывод был в виде текста, а не html.
Так что параметры, по большому счету, одинаковые. Если будет доступен сайт с документацией (ссылка в начале письма), то, все-такие, лучше использовать meme.
Опыт выполнения задания
Не скрою, я пробовал выполнить это задание. Вот мои наблюдения.
С первого раза не получается, т.е. мотивы имеют E-value > 0
- После перезапуска получается, т.е. получается мотив с хорошим E-value, который находит по одному сигналу перед каждым поздним геном и перед геном полипротеина. М.б. кроме одного-двух поздних генов. Но и перед ними потом можно что-то найти.
- Что делал чтобы добиться успеха.
- Посмотрел последовательность CS из статьи и стал обращать больше внимания на мотивы, похожие на нее. В статье 2004 года говорится, что она очень консервативна.
- Удлинил последовательности с 3' конца добавив ATG и еще несколько нукл. Разрешил мотивы начиная с трех позиций и убедился что ATG находится с плохим E-value. Успокоился.
- Для уменьшения области поиска сократил с 5' те последовательности, в которых найден мотив, похожий на то, что нужно. Оставив сигнал и еще несколько нукл. перед ним.
- Удлинил с 5' конца те последовательности, в которых правдоподобный мотив не найден, т.к. м.б. сигнал просто расположен левее.
- Пробовал разные варианты входных параметров.
Шаг 3. Проверка полученной PWM сигнала
Используйте FIMO против полного генома вашего вируса.
Результат идеальный, есть находится один сигнал (TRS-L) в лидере - обязательно!!!; по одному сигналу перед каждым поздним геном; величины E-value приличные, <0.05. Идеал не всегда достижим:) Хороший результат - не перед всеми поздними генами - тоже приемлем.