Учебная страница курса биоинформатики,
год поступления 2018
1
- Скачайте файл с геномом вируса
- Составьте таблицу с координатами upstream областями перед геном полипротеина (orf1ab) и перед каждым поздним геном.
- Поздние гены - те, которые идут после гена полипротеина.
- upstream orf1ab - от 1 нукл до -1 относительно старта трансляции; позднего гена от ??? до -1. ??? = -100 я бы попробовал сначала.
- Последовательности не обязаны быть одинаковой длины
- Важно: чем меньше область поиска, тем лучше (меньше) E-value мотива
- Важно: сигнал CS может быть довольно далеко от старта трансляции, если на участке до старта нет ATG с хорошим соответствием последовательности Козак
- Таблицу с feature можно скачать по ссылкам assembly ... как файл GCF_........_feature_table
- Сделайте фаста файл с upstream областями (seqret)
- Не забудьте дать последовательностям уникальные имена
2
Используйте сервис MEME Suit http://meme-suite.org/index.html. Тот же пакет установлен на kodomo, но на сайте удобные help'ы
Motif discovery => MEME
Input the primary sequences это файл с последовательностями, в которых будут искаться мотивы
Select the site distribution Советую выбрать 0 или 1 мотив в последовательности. Разрешить 0 надо, чтобы найти сначала хороший мотив, а потом найти что-то относительно похожее перед генами, для которых мотив не найден. Или думать в чем дело.
Select the number of motifs Это число найденных мотивов. Начните с умолчательных трех. Потом можно и на 1 заменить.
Advanced Обязательно.
How wide can motifs be? Разрешенное число позиций в мотиве
Can motif sites be on both strands? У нас НЕТ конечно.
What should be used as the background model? 0-order значит, что использовать частоты букв во введенных последовательностях как базовые частоты. Мне кажется, это разумно. Есть способ и задать их в файле и upload файл
How many sites must each motif have? Min=2 значит, что мотив находится, по крайней мере, два раза среди всех последовательностей. Max значит, что не нужны мотивы, встретившиеся во всех последовательностях больше max раз.
Использование MEME, установленной на kodomo
Команда назвается meme, уточнять значения параметров можно на сайте http://meme-suite.org/doc/meme.html?man_type=cmd. Если будут выпадать какие-то ошибки – сообщайте.
Названия требуемых опций:
а) фаста файл со входными последовательностями Просто первый аргумент у обеих программ. б) алфавит ДНК meme -dna ememe -snucleotide1 (но вроде определяется само) в) Zero or One Occurence per sequence meme/ememe -mod zoops (можно не указывать, это default) г) Number of (output) Motifs 3 meme/ememe -nmotifs 3 (default 1) д) Minwidth 6 meme/ememe -minw 6 (default 8) е) maxmotifwidth N meme/ememe -maxw N (default 50) ж) Search one strand only ВАЖНО, на входе РНК. Это поведение по-умолчанию. Чтобы искать на двух цепях надо явно указать: meme/ememe -revcomp
Еще имеет смысл указать -text, чтобы вывод был в виде текста, а не html.
Так что параметры, по большому счету, одинаковые. Если будет доступен сайт с документацией (ссылка в начале письма), то, все-такие, лучше использовать meme.
И. Русинов
3
Не скрою, я пробовал выполнить это задание. Вот мои наблюдения.
С первого раза не получается, т.е. мотивы имеют E-value > 0
- После перезапуска получается, т.е. получается мотив с хорошим E-value, который находит по одному сигналу перед каждым поздним геном и перед геном полипротеина. М.б. кроме одного-двух поздних генов. Но и перед ними потом можно что-то найти.
- Что делал чтобы добиться успеха.
- Посмотрел последовательность CS из статьи и стал обращать больше внимания на мотивы, похожие на нее. В статье 2004 года говорится, что она очень консервативна.
- Удлинил последовательности с 3' конца добавив ATG и еще несколько нукл. Разрешил мотивы начиная с трех позиций и убедился что ATG находится с плохим E-value. Успокоился.
- Для уменьшения области поиска сократил с 5' те последовательности, в которых найден мотив, похожий на то, что нужно. Оставив сигнал и еще несколько нукл. перед ним.
- Удлинил с 5' конца те последовательности, в которых правдоподобный мотив не найден, т.к. м.б. сигнал просто расположен левее.
- Пробовал разные варианты входных параметров.
4
Позже напишу какие данные нужно включить в результат. Пока всю выдачу MEME.
Дополнительно
- Проанализируйте наличие ATG и их контекстов на предмет соответствия последовательности Козак в 5' utr предполагаемых мРНК поздних генов.
- MAST это программа, которая ищет сигналы, заданные PWM, в новых последовательностях. Нет, правильнее использовать FIMO.
Её входные данные - выходные данные MEME. Дополнительно попрошу запустить ваш мотив по геному другого коронавируса.