Учебный сайт Сергея Пушкарева

Навигация по сайту:

EMBOSS и локальный BLAST

I. Задания по EMBOSS

1. Несколько файлов в формате fasta собрать в единый файл

Входные файлы: Раз, Два.

Команда:

seqret '*'.fasta combined.fasta

Выходной файл

2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

Входной файл

Команда:

seqretsplit combined.fasta -auto

Выходные файлы: Раз, Два.

3. Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.

Входные файлы: coords.txt, sequence.gb.

Команда:

seqret @coords.txt -out CDS.fasta

Выходной файл

4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.

Входной файл

Команда:

transeq -table 0 CDS.fasta prot.fasta

Выходной файл

5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности

seq.fasta

Команда:

getorf -minsize 50 seq.fasta seq.orf

seq.orf

10. Перемешать буквы в данной нуклеотидной последовательности.

seq.fasta

Команда:

shuffleseq seq.fasta seq.shuffle.fasta

seq.shuffle.fasta

11. Создать три случайных нуклеотидных последовательностей длины 100

Команда:

makeseqnuc -amount 3 -out stdout -auto | seqretsplit -filter

Выходные файлы: Раз, Два, Три.

12. Найти частоты кодонов в данных кодирующих последовательностях

Входной файл

Команда:

cusp CDS.fasta CDS_freqs.cusp

Выходной файл

14. Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей)

Выходной файл

Команда:

degapseq alignment.fasta alignment_degapped.fasta

Выходной файл

15. Перевести символы конца строки из формата Windows в формат Unix

Выходной файл

Команда:

noreturn -system unix windows.txt unix.txt

Выходной файл

II. Python скрипт

Задание: 4. По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product).

Ссылка на скрипт

Описание: С помощью программы EMBOSS extractfeat из файла gb/embl, находящегося в той же папке, что и скрипт, извлекаются все CDS в fasta-формате, при этом к последовательностям на комплементарной цепи автоматически применяется reverse complement. Итоговый файл имеет расширение ".cds". Названия последовательностей подвергаются редактированию: опцией -describe и -featinname к ним добавляется небольшое описание из поля /product соответствующего белка. Если при вызове скрипта указано -j, то все CDS одного белка будут сшиты в одну(актуально для эукариот с их экзонами).

Входной файл, Выходной файл.

© Пушкарев Сергей, 2018