Учебная страница курса биоинформатики,
год поступления 2016

EMBOSS: пакет программ для анализа последовательностей

Команды для освоения:
(1) help'ы: wossname, tfm, опции -help -verbose; http://emboss.sourceforge.net/ 
(2) работа с последовательностями: seqret,seqretsplit, infoseq, wordcount, compseq, fuzznuc 
(3) работа с выравниваниями: infoalign, edialign, emma,tranalign  
(4) работа с аннотациями записей: featcopy, extractfeat 
(5) работа с кодирующими последовательностями: transeq, cusp, getorf, tranalign  
(6) работа со случайными последовательностями: shuffleseq, makenucseq 
(7)вспомагательные: noreturn, degapseq

1. Представить отчёт о выполнении десяти упражнений.

Отчёт - на сайте. В отчёте должно быть: (i) номер и название задания; (ii) ссылка (-и) на исходные данные;(iii) команд с параметрами (скриншот или копи-паст из командной строки), и (iv) ссылка (-и)на результат.

Несколько файлов в формате fasta собрать в единый файл
Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
Транслировать данную нуклеотидную последовательность в шести рамках.
Перевести выравнивание из fasta формата в формат msf
Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и )
(featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
(extractfeat) Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
Перемешать буквы в данной нуклеотидной последовательности.
(*) Для случайной последовательности проверить с помощью blastn сколько "достоверных" находок (с E-value < 0.1) найдется в нуклеотидном банке данных (запустите blastn с порогом E = 10 - по умолчанию и посчитайте сколько с E-value < 0.1)
(*)Найдите все открытые рамки длиной более ... (сами придумайте) в бактериальной хромосоме и посчитайте статистику совпадений с аннотированными кодирующими последовательностями белков. Считать,что предсказание совпадает с аннотацией если совпадают координаты стоп-кодонов и CDS на одной и той же цепи ДНК, т.к. ошибки в определении инициаторного кодона часты даже в аннотациях (подсказка: ...).
Найдите частоты кодонов в данных кодирующих последовательностях
(*) Найдите частоты динуклеотидов в хромосоме человека, сравните их с ожидаемыми (подсказка: ожидаемая частота XY = (наблюдаемая частота X) * (наблюдаемая частота Y) )и определите динуклеотид, частота которого наиболее отклоняется от наблюдаемой.
(tranalign) Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов
Постройте локальное множественное выравнивание трех нуклеотидных последовательностей
Удалите символы гэпов и другие посторонние символы из последовательности.
Переведите символы конца строки в формат unix
Создайте три случайных нуклеотидных последовательностей длины сто
Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta. Описание данных см. здесь

Пояснение Использовать можно любые входные последовательности. Для многих заданий данные лежат на диске P в директории pr9.

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2016

EMBOSS: пакет программ для анализа последовательностей

1. Представить отчёт о выполнении десяти упражнений.

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2016

EMBOSS: пакет программ для анализа последовательностей

1. Представить отчёт о выполнении десяти упражнений.

Учебная страница курса биоинформатики,
год поступления 2016