Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2018

1

  1. Скачайте файл с геномом вируса
  2. Составьте таблицу с координатами upstream областями перед геном полипротеина (orf1ab) и перед каждым поздним геном.
    • Поздние гены - те, которые идут после гена полипротеина.
    • upstream orf1ab - от 1 нукл до -1 относительно старта трансляции; позднего гена от ??? до -1. ??? = -100 я бы попробовал сначала.
      • Последовательности не обязаны быть одинаковой длины
      • Важно: чем меньше область поиска, тем лучше (меньше) E-value мотива
      • Важно: сигнал CS может быть довольно далеко от старта трансляции, если на участке до старта нет ATG с хорошим соответствием последовательности Козак
    • Таблицу с feature можно скачать по ссылкам assembly ... как файл GCF_........_feature_table
  3. Сделайте фаста файл с upstream областями (seqret)
    • Не забудьте дать последовательностям уникальные имена

2

  1. Используйте сервис MEME Suit http://meme-suite.org/index.html. Тот же пакет установлен на kodomo, но на сайте удобные help'ы

  2. Motif discovery => MEME

  3. Input the primary sequences это файл с последовательностями, в которых будут искаться мотивы

  4. Select the site distribution Советую выбрать 0 или 1 мотив в последовательности. Разрешить 0 надо, чтобы найти сначала хороший мотив, а потом найти что-то относительно похожее перед генами, для которых мотив не найден. Или думать в чем дело.

  5. Select the number of motifs Это число найденных мотивов. Начните с умолчательных трех. Потом можно и на 1 заменить.

  6. Advanced Обязательно.

  7. How wide can motifs be? Разрешенное число позиций в мотиве

  8. Can motif sites be on both strands? У нас НЕТ конечно.

  9. What should be used as the background model? 0-order значит, что использовать частоты букв во введенных последовательностях как базовые частоты. Мне кажется, это разумно. Есть способ и задать их в файле и upload файл

  10. How many sites must each motif have? Min=2 значит, что мотив находится, по крайней мере, два раза среди всех последовательностей. Max значит, что не нужны мотивы, встретившиеся во всех последовательностях больше max раз.

Использование MEME, установленной на kodomo

Команда назвается meme, уточнять значения параметров можно на сайте http://meme-suite.org/doc/meme.html?man_type=cmd. Если будут выпадать какие-то ошибки – сообщайте.

Названия требуемых опций:

а) фаста файл со входными последовательностями
Просто первый аргумент у обеих программ.

б) алфавит ДНК
meme -dna
ememe -snucleotide1 (но вроде определяется само)

в) Zero  or One Occurence per sequence
meme/ememe -mod zoops (можно не указывать, это default)

г) Number of (output) Motifs 3
meme/ememe -nmotifs 3 (default 1)

д) Minwidth 6
meme/ememe -minw 6 (default 8)

е) maxmotifwidth N
meme/ememe -maxw N (default 50)

ж) Search one strand only   ВАЖНО, на входе РНК. 
Это поведение по-умолчанию. Чтобы искать на двух цепях надо явно указать:
meme/ememe -revcomp

Еще имеет смысл указать -text, чтобы вывод был в виде текста, а не html.

Так что параметры, по большому счету, одинаковые. Если будет доступен сайт с документацией (ссылка в начале письма), то, все-такие, лучше использовать meme.

И. Русинов

3

Не скрою, я пробовал выполнить это задание. Вот мои наблюдения.

4

Позже напишу какие данные нужно включить в результат. Пока всю выдачу MEME.

Дополнительно

Её входные данные - выходные данные MEME. Дополнительно попрошу запустить ваш мотив по геному другого коронавируса.