Учебная страница курса биоинформатики,
год поступления 2022
Поиск сигнала в промоторах оперонов в геноме бактерии
На примере сигнала для sigma-субъединицы РНК-полимеразы
Введение про промоторы у бактерий
Основа (см. обзор 2021 [1])
- Гены белков у прокариот собраны в опероны, участки ДНК, которые транскрибируются в одну мРНК, которая может содержать несколько или один ген белка. По определению, сайты связывания σ-субъединицы есть только в промоторах ПЕРЕД ОПЕРОНАМИ.
- Комплекс белков, составляющих РНК-полимеразу начинает cобираться после связывания σ-фактора со специальной последовательностью, состоящую из двух участков, перед стартом транскрипции (TSS) в промоторе.
- РНК-полимераза может использовать разные σ-субъединицы в зависимости от окружения и состояния бактериальной клетки.
- Промоторы разных σ-субъединиц (= σ-факторы) узнают разные последовательности, но структура: -35 -10 у них одинакова
- Выделяется σ-фактор "домашнего хозяйства”, он обслуживает большинство генов, постоянно необходимых бактерии, т.н. генов "домашнего хозяйства".
Цитата из [1]: "bacterial RNAPs require an initiation factor, sigma (σ), for promoter-specific DNA binding and unwinding. All bacteria possess a primary housekeeping σ factor that controls the transcription of essential genes during normal growth conditions. The vast majority of transcription initiation events in bacteria involve RNAP bound to the primary σ" RNAP - РНК полимераза, комплекс белков.
1-2.Подготовка данных
Найдите у себя или скачайте fasta файл с хромосомой бактерии из GeneBank:("send" => "Fasta"). Для этого задания достаточно одной хромосомы, даже если у бактерии есть и другие репликоны (ещё хромосома и/или плазмиды)
- Найдите опероны в хромосоме.
Используйте сервис Operon-mapper https://biocomputo.ibt.unam.mx/operon_mapper/. Минимальный набор входных данных - fasta file c геномом. Список генов не обязателен, так как при его отсутствии сервис самостоятельно аннотирует гены белков известной программой prokka. Из выходных файлов вам нужен только список оперонов, отметьте его справа. Он содержит и список генов с их именами для каждого оперона. Для дополнительной информации о генах можно заказать COG-и (ID кластеров ортологичных генов) и functional annotation генов.
- Составьте список координат промоторов; не запутайтесь с ориентацией оперонов. Можно использовать (со ссылкой на автора) простенькую программу, написанную для этого другим студентом (не это проверяю в задании). Предлагаю промотором считать область 100 нукл перед началом оперона (для поиска TF можно взять и 150). Обоснование - цитата из [2]: "The automatic search for promoters upstream of TSS is known to be difficult due to variations in the distance between −10 and −35 boxes or between the TSS and the −10 element and sometimes degenerated consensus sequences." Размер выбираете вы.
- Выберите 20 - 50 промоторов оперонов, желательно генов домашнего хозяйства, и скачайте их последовательности в fasta файл; будет материал обучения для MEME
- Скачайте последовательности всех (или нескольких сотен) оперонов для тестирования мотива.
- Составьте файл с последовательностями для негативного контроля.
Литература
[1] (free) Chen, James et al. “Diverse and unified mechanisms of transcription initiation in bacteria.” Nature reviews. Microbiology vol. 19,2 (2021): 95-109. doi:10.1038/s41579-020-00450-2
[2] (free)Soutourina, Olga et al. “Genome-Wide Transcription Start Site Mapping and Promoter Assignments to a Sigma Factor in the Human Enteropathogen Clostridioides difficile.” Frontiers in microbiology vol. 11 1939. 13 Aug. 2020, doi:10.3389/fmicb.2020.01939 Исследование сигналов в промоторе, определяемом на основе эксперимента, позволяющего определять 5'концы РНК.
[3] Taboada, Blanca et al. “Operon-mapper: a web server for precise operon identification in bacterial and archaeal genomes.” Bioinformatics (Oxford, England) vol. 34,23 (2018): 4118-4120. doi:10.1093/bioinformatics/bty496
3. Запуск MEME
Разрешите MEME находить несколько (скажем, три) сигналов в связи со сложностью задачи. Из них выберите наиболее правдоподобный.
На результат влияет параметр длина мотива который ищется. Если зададите от 3 до 10, то MEME будет искать мотивы длины 3, потом 4,...., 10. Значит, будет работать в 7 раз дольше, чем при заказе одной длины.
Можно использовать локальную версию на kodomo (параметры командной строка с примерами лучше смотреть на сайте MEME siut: https://meme-suite.org/meme/doc/meme.html#examples) или сервис MEME-suit http://meme-suite.org/index.html.
Motif discovery => сервис MEME
Input the primary sequences это файл с последовательностями, в которых будут искаться мотивы
Select the site distribution
- Советую выбрать 0 или 1 мотив в одной последовательности. Потому, что не отсутствие мотива в одной или нескольких последовательностях может случиться по техническим причинам или сайт для другого σ-фактора.
Select the number of motifs Это число найденных мотивов. Начните с умолчательных трех. Потом можно и на 1 заменить.
Advanced Обязательно:
How wide can motifs be? Разрешенное число позиций в мотиве
Can motif sites be on both strands? - НЕТ если на вход поданы промоторы на кодирующей последовательности относительно гена.
What should be used as the background model? 0-order значит, что использовать частоты букв во введенных последовательностях как базовые частоты. Мне кажется, это разумно. Есть способ и задать их в файле и upload файл
How many sites must each motif have? Min=2 значит, что мотив находится, по крайней мере, два раза среди всех последовательностей. Max значит, что не нужны мотивы, встретившиеся во всех последовательностях больше max раз.
Использование MEME, установленной на kodomo
Команда называется meme, уточнять значения параметров можно на сайте https://meme-suite.org/meme/doc/meme.html#examples.
Названия требуемых опций:
а) фаста файл со входными последовательностями Просто первый аргумент программы. б) алфавит ДНК meme -dna в) Zero or One Occurence per sequence meme -mod zoops (можно не указывать, это default) г) Number of (output) Motifs 3 meme -nmotifs 3 (default 1) д) Minwidth 6 meme -minw 6 (default 8) е) maxmotifwidth N meme -maxw N (default 50) ж) Search one strand only ВАЖНО. Это поведение по-умолчанию. Чтобы искать на двух цепях надо явно указать: meme -revcomp Еще имеет смысл указать -text, чтобы вывод был в виде текста, а не html.
Параметры одинаковые. Если будет доступен сайт с документацией (ссылка в начале), то лучше использовать meme.
4. Поиск сигнала в материале для тестирования с помощью FIMO
Параметры командной строка с примерами лучше смотреть на сайте MEME siut: https://meme-suite.org/meme/doc/fimo.html?man_type=web
on-line программа FIMO
- Простой вариант
- Запустите MEME
- MEME HTML output
- Submit/Download
- FIMO submit
- Input the sequences: Upload sequences. Можно одну (например, если поиск во всём геноме) или несколько (если поиск - в ограниченных участках генома, например, в промоторах) в одном фаста файле)
Замечание. Вместо результата MEME, можно загрузить свою матрицу PFM или паттерн. Форматы описаны в help'е (нажать "?")
- Advanced options
- scan given strand only
- Подбирайте порог E-value так, чтобы получить ожидаемый результат
- Start
Консольная версия FIMO на kodomo
Запуск fimo [options] <motif> <sequences>. Как и в случае meme, к программе отсутствует документация в системах man и info. Более того, эта программа не понимает даже опций -h, --help, -? и т.д. Единственный способ получить по ней хоть какую-то справку в командной строке – запустить её без параметров. Подробное описание всех опций доступно по адресу http://meme-suite.org/doc/fimo.html?man_type=cmd .
Например, можно искать находки только на одной цепи, указав опцию --norc.
Консольная версия FIMO понимает только один формат файла с мотивами и PFM. Этот формат подробно описан здесь: http://meme-suite.org/doc/meme-format.html . Утилита meme выдает результаты на STDOUT именно в этом формате, если указана опция -text. Печатается значительно больше информации, чем необходимо для описания мотивов, но эта информация не мешает программе fimo. Поэтому выдачу meme -text можно целиком передавать в качестве первого аргумента при вызове fimo. Если хочется запустить поиск не всех мотивов, а только какого-то одного, обратите внимание на опцию -motif.
Если вы запускали meme без опции -text, точно то же самое можете найти в папке с выдачей программы, это файл с именем meme.txt.
Обратите внимание, при вызове meme и fimo опции необходимо указывать перед позиционными аргументами, иначе программы выдадут ошибку.
Еще имеет смысл указать -text, чтобы вывод был в виде текста, а не html.
Так что параметры, по большому счету, одинаковые. Если будет доступен сайт с документацией (ссылка в начале письма), то, все-такие, лучше использовать meme.
Скачайте особенности (features), среди них есть CDSs ("send" => "Complete record", "File", "Feature Table") Преобразуйте файл с Features в .tsv формат с координатами кодирующих последовательностей.
features2CDSs.py
Мои скрипты выдают инфо при запуске без параметров; при запуск с опцией -h выдаётся список параметров программы.