Пакет EMBOSS и сравнение геномов

EMBOSS и сравнение геномов

1. Команды EMBOSS

Задание: несколько файлов в формате fasta собрать в единый файл.

Выполнение: Использовавшиеся данные: 3 последовательности в fasta-формате и txt-файл с названиями этих последовательностей. На выходе получаем файл с тремя заданными последовательностями.
Команда: seqret @1list.txt sequences.fasta
Задание: один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.

Выполнение: Использовавшиеся данные: файл с последовательностями (3). На выходе получаем 3 последовательности.
Команда: seqretsplit sequences.fasta
Задание: из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.

Выполнение: Использовавшиеся данные: файл с id и координатами нужных последовательностей. На выходе получаем файл с этими последовательностями.
Команда: seqret @3list.txt fasta:chromcds.fasta
Задание: транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.

Выполнение: Использовавшиеся данные: файл с кодирующей последовательностью. На выходе получаем файл с аминокислотной последовательностью.
Команда: transeq chromcds.fasta fasta:chromprot.fasta
Задание: транслировать данную нуклеотидную последовательность в шести рамках.

Выполнение: Использовавшиеся данные: файл с кодирующей последовательностью. '-frame n' означает транслирование в n рамок. Выходной файл в формате pep.
Команда: transeq -frame 6 chromcds.fasta 6prot.pep
Задание: перевести выравнивание и из fasta формате в формат .msf.

Выполнение: Использовавшиеся данные: выравнивание fasta-формате. На выходе получаем файл с выравниванием в msf-формате.
Команда: seqret align.fasta msf:align.msf
Задание: выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными.

Выполнение: Использовавшиеся данные: выравнивание в fasta-формате. '-refseq 2' значит, что за сравниваем все последовательности со второй. '-only -name -idcount' значит, что в выходной поток попадают только название последовательности и число совпадающих букв. 'stdout' отправить все в стандартный поток, а не в файл.
Команда: infoalign -refseq 2 -only -name -idcount align.fasta stdout
Задание: Перевести аннотации особенностей в записи формата .gb в табличный формат .gff

Выполнение: Использовавшиеся данные: gb-файл с пластидой. На выходе получаем файл с аннотациями особенностей в табличном формате.
Команда: featcopy -features feat.gb -outfeat gfile.gff
Задание: перемешать буквы в данной нуклеотидной последовательности.

Выполнение: Использовавшиеся данные: исходный fasta-файл. На выходе получаем файл с перемешанными нуклеотидами.
Команда: shuffle 1.fasta > ev1.fasta
Задание: найдите частоты кодонов в данных кодирующих последовательностях.

Выполнение: Использовавшиеся данные: файл с кодирующей последовательностью. На выходе получаем файл с частотами кодонов.
Команда: cusp chromcds.fasta chromcds.cusp
Задание: найдите частоты динуклеотидов в данной нуклеотидной последовательности и сравните их с ожидаемыми.

Выполнение: Использовавшиеся данные: файл в формате fasta. '-word 2' значит, что находим частоты слов длины 2, т.е. динуклеотиды. На выходе получаем файл с частотами.
Команда: compseq ev1.fasta -word 2 -calcfreq ev1.composition
Задание: выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов.

Выполнение: Использовавшиеся данные: файл с кодирующими последовательностями, выравнивание их белков. На выходе получаем файл с выравниванием кодирующих последовательностей.
Команда: tranalign chromcds.fasta protalign.fasta alignchrom.fasta

2. Карта локального сходства

Взял две археи: Halobacterium sp. JI20-1 (по оси У) - LN831302 и Halobacterium sp. NRC-1 (по оси Х) - AE004437. Размер слова 32 убирает большинство шумов, а карта не меняется. Сходство между гомологичными участками составляет 82%.

Красные прямоугольники 1, 2, 3, 5 - инверсии. Красные прямоугольники 4 - инверсированный участкок с транслокациями. Прямоугольник 6 - регион с большим количеством эволюционных изменений, разобраться в которых не просто.

Синий кружок 1 - инверсия участка. Синий кружок 2 - делеция участка у бактерии по оси Х.