Учебная страница курса биоинформатики,
год поступления 2016
EMBOSS: пакет программ для анализа последовательностей
Команды для освоения: (1) help'ы: wossname, tfm, опции -help -verbose; http://emboss.sourceforge.net/ (2) работа с последовательностями: seqret,seqretsplit, infoseq, wordcount, compseq, fuzznuc (3) работа с выравниваниями: infoalign, edialign, emma,tranalign (4) работа с аннотациями записей: featcopy, extractfeat (5) работа с кодирующими последовательностями: transeq, cusp, getorf, tranalign (6) работа со случайными последовательностями: shuffleseq, makenucseq (7)вспомагательные: noreturn, degapseq
1. Представить отчёт о выполнении десяти упражнений.
Отчёт - на сайте. В отчёте должно быть: (i) номер и название задания; (ii) ссылка (-и) на исходные данные;(iii) команд с параметрами (скриншот или копи-паст из командной строки), и (iv) ссылка (-и)на результат.
- Несколько файлов в формате fasta собрать в единый файл
- Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
- Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
- Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
- Транслировать данную нуклеотидную последовательность в шести рамках.
- Перевести выравнивание из fasta формата в формат msf
- Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и )
- (featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
- (extractfeat) Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
- Перемешать буквы в данной нуклеотидной последовательности.
(*) Для случайной последовательности проверить с помощью blastn сколько "достоверных" находок (с E-value < 0.1) найдется в нуклеотидном банке данных (запустите blastn с порогом E = 10 - по умолчанию и посчитайте сколько с E-value < 0.1)
- (*)Найдите все открытые рамки длиной более ... (сами придумайте) в бактериальной хромосоме и посчитайте статистику совпадений с аннотированными кодирующими последовательностями белков. Считать,что предсказание совпадает с аннотацией если совпадают координаты стоп-кодонов и CDS на одной и той же цепи ДНК, т.к. ошибки в определении инициаторного кодона часты даже в аннотациях (подсказка: ...).
- Найдите частоты кодонов в данных кодирующих последовательностях
- (*) Найдите частоты динуклеотидов в хромосоме человека, сравните их с ожидаемыми (подсказка: ожидаемая частота XY = (наблюдаемая частота X) * (наблюдаемая частота Y) )и определите динуклеотид, частота которого наиболее отклоняется от наблюдаемой.
- (tranalign) Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов
Постройте локальное множественное выравнивание трех нуклеотидных последовательностей
- Удалите символы гэпов и другие посторонние символы из последовательности.
- Переведите символы конца строки в формат unix
- Создайте три случайных нуклеотидных последовательностей длины сто
Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta. Описание данных см. здесь
Пояснение Использовать можно любые входные последовательности. Для многих заданий данные лежат на диске P в директории pr9.
В процессе ...