Учебная страница курса биоинформатики,
год поступления 2018
21 марта UNDER CONSTRUCTION
.
3.
- Программа FIMO.
- Если MEME suite работает. Самый простой вариант
- Запустите MEME (как вы делали ранее)
- MEME HTML output
- Submit/Download
- FIMO submit
- Input the sequences: Upload sequences (т.е. один или сразу несколько геномов коронавирусов в одном фаста файле)
Замечание. Вместо результата MEME, можно загрузить свою матрицу PWM или паттерн. Форматы описаны в help'е (нажать "?")
- Advanced options
- scan given strand only
- Подбирайте порог E-value так, чтобы получить требуемый результат
- Start
- Если MEME suite работает. Самый простой вариант
На kodomo установлена консольная версия FIMO. Запустить её можно с помощью команды fimo [options] <motif> <sequences>. Как и в случае meme, к программе отсутствует документация в системах man и info. Более того, эта программа не понимает даже опций -h, --help, -? и т.д. Единственный способ получить по ней хоть какую-то справку в командной строке – запустить её без параметров. Подробное описание всех опций доступно по адресу http://meme-suite.org/doc/fimo.html?man_type=cmd .
Например, можно искать находки только на одной цепи, указав опцию --norc.
Консольная версия FIMO понимает только один формат файла с мотивами и PWM. Этот формат подробно описан здесь: http://meme-suite.org/doc/meme-format.html . Утилита meme выдает результаты на STDOUT именно в этом формате, если указана опция -text. Печатается значительно больше информации, чем необходимо для описания мотивов, но эта информация не мешает программе fimo. Поэтому выдачу meme -text можно целиком передавать в качестве первого аргумента при вызове fimo. Если хочется запустить поиск не всех мотивов, а только какого-то одного, обратите внимание на опцию -motif.
Если Вы запускали meme без опции -text, точно тоже самое Вы можете найти в папке с выдачей программы, это файл с именем meme.txt.
Обратите внимание, при вызове meme и fimo опции необходимо указывать перед позиционными аргументами, иначе программы выдадут ошибку.
— ИР
Если находки сигналов расположены в геноме далеко не идеально, стоит повторить процедуру, возможно, начиная с MEME
- Что сохранить: таблицу находок; выравнивание найденных последовательностей.
- b. ... c. ....
- Выбор геномов "других" коронавирусов
Выводы
- Опишите, насколько сигналы, найденные с помощью мотив (PWM), в геноме своего коронавируса соответствуют ожидаемой "идеальной" картине
- Опишите насколько специфичен мотив (PWM) для вида коронавируса, сравнив с находками сигнал в родственных коронавируса.
4.
- Можно использовать p-value, придуманное другим студентом, сославшись на автора
- Можно посоветоваться с ААл или ИР - написать письмо
- Можно просить помощи у преподавателей статистики, объяснив им задачу
5. Shine-Dalgarno
Отредактирую позже. ААл
==== Копия подсказок к заданию для y14 ====
Подготовка данных
Найдите свою бактерию в БД Assembly на NCBI, перейдите на страницу последовательности в GeneBank
Скачайте fasta файл с хромосомой ("send" => "Complete record", "File", "Fasta")
Скачайте особенности (features), среди них есть CDSs ("send" => "Complete record", "File", "Feature Table")
Преобразуйте файл с Features в .xls формат с координатами кодирующих последовательностей. Используйте мой скрипт features2CDSs.py Мои скрипты выдают инфо при запуске без параметров; при запуск с опцией -h выдается список параметров программы.
- Выберите несколько сот "хороших" кодирующих последовательностей. "Хорошая" значит есть надежда, что ген хорошо аннотирован: не гипотетический, достаточно длинный (скажем, более 300 п.н.). Указанные числа CDSs условны.
- Прочитайте что-нибудь про Ш-Д для того, чтобы разумно спланировать поиск мотива.
- Литературу ищите с помощью google и в Pubmed
- Для отобранных генов создайте список областей, в которых имеет смысл искать ШД. Помните, что сигнал слабый, поэтому стоит сузить область поиска, но так, чтобы не пропустить много настоящих ШД! Для этого и надо прочитать про ШД. Нужен файл формата:
мин_координата |
макс_координата |
ориентация |
ID_фрагмента |
остальное |
В качестве ID_фрагмента можно оставить AС гена; остальное – product. Такой файл можно сделать в Excel.
Создайте fasta файл с областями поиска. Используйте мое скрипт fragments2fasta.py. Его запускать на kodomo, т.к. использует bash и EMBOSS команду seqret.
- Не перепутайте с указанием области поиска перед геном, расположенным на противоположной цепи!
Так же сделайте файл с областями поиска для всех генов. Границы по отношению к старту трансляции можно немножко расширить.