Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Поиск сигнала посадки sigma-субъединицы РНК-полимеразы

Введение про промоторы у бактерий

Основа (см. обзор 2021 [1])

Цитата из [1]: "bacterial RNAPs require an initiation factor, sigma (σ), for promoter-specific DNA binding and unwinding. All bacteria possess a primary housekeeping σ factor that controls the transcription of essential genes during normal growth conditions. The vast majority of transcription initiation events in bacteria involve RNAP bound to the primary σ" RNAP - РНК полимераза, комплекс белков.

1-2.Подготовка данных

Литература

[1] (free) Chen, James et al. “Diverse and unified mechanisms of transcription initiation in bacteria.” Nature reviews. Microbiology vol. 19,2 (2021): 95-109. doi:10.1038/s41579-020-00450-2

[2] (free)Soutourina, Olga et al. “Genome-Wide Transcription Start Site Mapping and Promoter Assignments to a Sigma Factor in the Human Enteropathogen Clostridioides difficile.” Frontiers in microbiology vol. 11 1939. 13 Aug. 2020, doi:10.3389/fmicb.2020.01939 Исследование сигналов в промоторе, определяемом на основе эксперимента, позволяющего определять 5'концы РНК.

[3] Taboada, Blanca et al. “Operon-mapper: a web server for precise operon identification in bacterial and archaeal genomes.” Bioinformatics (Oxford, England) vol. 34,23 (2018): 4118-4120. doi:10.1093/bioinformatics/bty496

3. Запуск MEME

Разрешите MEME находить несколько (скажем, три) сигналов в связи со сложностью задачи. Из них выберите наиболее правдоподобный.

На результат влияет параметр длина мотива который ищется. Если зададите от 3 до 10, то MEME будет искать мотивы длины 3, потом 4,...., 10. Значит, будет работать в 7 раз дольше, чем при заказе одной длины.

Можно использовать локальную версию на kodomo (параметры командной строка с примерами лучше смотреть на сайте MEME siut: https://meme-suite.org/meme/doc/meme.html#examples) или сервис MEME-suit http://meme-suite.org/index.html.

Motif discovery => сервис MEME

  1. Input the primary sequences это файл с последовательностями, в которых будут искаться мотивы

  2. Select the site distribution

    • Советую выбрать 0 или 1 мотив в одной последовательности. Потому, что не отсутствие мотива в одной или нескольких последовательностях может случиться по техническим причинам или сайт для другого σ-фактора.
  3. Select the number of motifs Это число найденных мотивов. Начните с умолчательных трех. Потом можно и на 1 заменить.

  4. Advanced Обязательно:

    1. How wide can motifs be? Разрешенное число позиций в мотиве

    2. Can motif sites be on both strands? - НЕТ если на вход поданы промоторы на кодирующей последовательности относительно гена.

  5. What should be used as the background model? 0-order значит, что использовать частоты букв во введенных последовательностях как базовые частоты. Мне кажется, это разумно. Есть способ и задать их в файле и upload файл

  6. How many sites must each motif have? Min=2 значит, что мотив находится, по крайней мере, два раза среди всех последовательностей. Max значит, что не нужны мотивы, встретившиеся во всех последовательностях больше max раз.

Использование MEME, установленной на kodomo

Команда называется meme, уточнять значения параметров можно на сайте https://meme-suite.org/meme/doc/meme.html#examples.

Названия требуемых опций:

а) фаста файл со входными последовательностями
Просто первый аргумент программы.

б) алфавит ДНК
meme -dna

в) Zero  or One Occurence per sequence
meme -mod zoops (можно не указывать, это default)

г) Number of (output) Motifs 3
meme -nmotifs 3 (default 1)

д) Minwidth 6
meme -minw 6 (default 8)

е) maxmotifwidth N
meme -maxw N (default 50)

ж) Search one strand only   ВАЖНО. 
Это поведение по-умолчанию. Чтобы искать на двух цепях надо явно указать:
meme -revcomp

Еще имеет смысл указать -text, чтобы вывод был в виде текста, а не html. 

Параметры одинаковые. Если будет доступен сайт с документацией (ссылка в начале), то лучше использовать meme.

4. Поиск сигнала в материале для тестирования с помощью FIMO

Параметры командной строка с примерами лучше смотреть на сайте MEME siut: https://meme-suite.org/meme/doc/fimo.html?man_type=web

on-line программа FIMO

Консольная версия FIMO на kodomo

Запуск fimo [options] <motif> <sequences>. Как и в случае meme, к программе отсутствует документация в системах man и info. Более того, эта программа не понимает даже опций -h, --help, -? и т.д. Единственный способ получить по ней хоть какую-то справку в командной строке – запустить её без параметров. Подробное описание всех опций доступно по адресу http://meme-suite.org/doc/fimo.html?man_type=cmd .

Например, можно искать находки только на одной цепи, указав опцию --norc.

Консольная версия FIMO понимает только один формат файла с мотивами и PFM. Этот формат подробно описан здесь: http://meme-suite.org/doc/meme-format.html . Утилита meme выдает результаты на STDOUT именно в этом формате, если указана опция -text. Печатается значительно больше информации, чем необходимо для описания мотивов, но эта информация не мешает программе fimo. Поэтому выдачу meme -text можно целиком передавать в качестве первого аргумента при вызове fimo. Если хочется запустить поиск не всех мотивов, а только какого-то одного, обратите внимание на опцию -motif.

Если вы запускали meme без опции -text, точно то же самое можете найти в папке с выдачей программы, это файл с именем meme.txt.

Обратите внимание, при вызове meme и fimo опции необходимо указывать перед позиционными аргументами, иначе программы выдадут ошибку.

Еще имеет смысл указать -text, чтобы вывод был в виде текста, а не html.

Так что параметры, по большому счету, одинаковые. Если будет доступен сайт с документацией (ссылка в начале письма), то, все-такие, лучше использовать meme.

2021/4/hints7 (последним исправлял пользователь aba 2023-04-02 14:57:02)