• Цель данного практикума - выполнить операции с файлами нуклеотидных или белковых последовательностей с помощью программ из пакета EMBOSS;
Часть 1
Задание 1
- Несколько файлов в формате fasta собрать в единый файл;
• Исходные файлы: NC_011942160.fasta, NC_015971143.fasta;
• Команда:
• Результат: sequences.fasta
Задание 2
- Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы;
• Исходные файлы: sequences.fasta
• Команда:
• Результат: 3376700-3377745.fasta, c863922-863175.fasta;
Задание 3
- Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле;
• Исходные файлы: seq.gb, usa.txt;
• Команда:
• Результат: all.fasta
Задание 4
- Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл
• Исходные файлы: all.fasta
• Команда:
• Результат: all.pep
Задание 5
- Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности;
• Исходные файлы: fungi.fasta
• Команда:
• Результат: fungi.orf
Задание 6
- Перевести выравнивание из формата fasta в формат msf;
• Исходные файлы: align.fasta
• Команда:
• Результат: align.msf
Задание 7
- Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа);
• Исходные файлы: cara_alignment.fasta
• Команда:
• Результат: cara_align.txt
Задание 8
- Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff;
• Исходные файлы: seq.gb
• Команда:
• Результат: feature.gff
Задание 9
- Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями;
• Исходные файлы: seq.gb
• Команда:
• Результат: features.fasta
Задание 10
- Перемешать буквы в данной нуклеотидной последовательности;
• Исходные файлы: numberone.fasta
• Команда:
• Результат: shuffle.fasta
Часть 2
Задание 4
- По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка;
• Скрипт;
• При запуске скрипта необходимо ввести название исходного файла с геномом в качетсве аргумента; c помощью программы extractfeat создается файл, содержащий необходимую информацию;
• Пример использования:
где seq.gb - название исходного файла, который подается в качестве аргумента;
• Результат: создается файл feat.fasta
©Машковская Анна, 2018