Учебная страница курса биоинформатики,
год поступления 2017
EMBOSS: пакет программ для анализа последовательностей
Команды для освоения:
(1) help'ы: wossname, tfm, опции -help -verbose; http://emboss.sourceforge.net/ (2) работа с последовательностями: seqret, seqretsplit, infoseq, descseq, wordcount, compseq, fuzznuc (3) работа с выравниваниями: infoalign, tranalign, consambig (4) работа с аннотациями записей: featcopy, extractfeat (5) работа с кодирующими последовательностями: transeq, cusp, getorf, tranalign (6) работа со случайными последовательностями: shuffleseq, makenucseq (7) вспомогательные: noreturn, degapseq
Кроме того, нужно знать формат USA (адрес последовательности).
1. Представить отчёт о выполнении десяти упражнений.
В отчёте должно быть: (i) номер и название задания; (ii) ссылка(-и) на исходные данные; (iii) команды с параметрами (копия из командной строки, как преформатированный текст), и (iv) ссылка(-и) на результат(-ы).
- Несколько файлов в формате fasta собрать в единый файл.
- Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.
- Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.
- Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.
- Перевести выравнивание из формата fasta в формат msf.
- Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).
- (featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
- (extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.
- Перемешать буквы в данной нуклеотидной последовательности.
- Создать три случайных нуклеотидных последовательностей длины 100.
- Найти частоты кодонов в данных кодирующих последовательностях.
(tranalign) Выровнять кодирующие последовательности соответственно выравниванию белков — их продуктов.
- Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).
- Перевести символы конца строки из формата Windows в формат Unix.
Файл с ридами sra_data.fastq в формате fastq перевести в формат fasta. Описание данных см. здесь
Пояснение Использовать можно любые входные последовательности.
2. Написать на python и/или bash скрипт, решающий одну из следующих задач
Проверить, сколько находок с E-value < 0.1 в среднем находит blastn для случайной последовательности данной длины в данном геноме бактерии (Подсказка: сгенерируйте 100 случайных последовательноcтей и задайте их как query, выдачу blastn задайте табличную).
- Найти все открытые рамки длиной более 60 аминокислотных остатков в бактериальной хромосоме и посчитать статистику совпадений с аннотированными кодирующими последовательностями белков. Считать, что предсказание совпадает с аннотацией, если совпадают координаты стоп-кодонов на одной и той же цепи ДНК (ошибки в определении инициаторного кодона часты даже в аннотациях).
- Найти частоты динуклеотидов в геноме бактерии, сравнить их с ожидаемыми и определить динуклеотид, частота которого наиболее отклоняется от наблюдаемой. Подсказка: ожидаемая частота XY = (наблюдаемая частота X) * (наблюдаемая частота Y).
По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product).
В отчёте привести ссылку на скрипт (или набор скриптов) и подробное описание результата его применения.
Для многих заданий данные лежат на диске P в директории pr9.