Упражнения EMBOSS

seqret

Команда: seqret @list -out out.fasta
Описание: команда берёт список файлов fasta из list и соединяет их в один файл out.fasta
Материалы

seqretsplit

Команда: seqretsplit c.fasta
Описание: команда записывает каждую последовательность из файла c.fasta в отдельный файл, названный именем последовательности.
Материалы

compseq

Команда: compseq a.fasta -word 2 -outfile a.composition
Описание: команда вычисляет частоту каждого димера в последовательности и записывает данные об этом в файл a.composition.
Материалы

cusp

Команда: cusp clean.fasta -outfile clean_cusp
Описание: команда вычисляет частоту кодонов в кодирующей последовательности clean.fasta и записывает данные об этом в файл clean_cusp.
Материалы

shuffleseq

Команда: shuffleseq a.fasta -outseq a_shuffled.fasta
Описание: команда перемешивает последовательность a.fasta и кладёт её в файл a_shuffled.fasta
Материалы Название бактерии: Chlorobium luteolum
AC: NC_007512.1
Для неё взят полный геном, состоящий из одной кольцевой хромосомы.
Последовательность генома

Задание 1

Получение файла с рамками

Команда: getorf ChlorobiumLuteolum.fasta Orfs.fasta -minsize 180 -circular Y -table 11
-minsize 180 задаёт минимальную длину рамки в п.н.
-cirular Y - кольцевая ДНК.
-table 11 задаёт таблицу генетического кода, характерного для бактерий и архей.
getorf записывает в файл Orfs.fasta открытые рамки считывания из файла с геномом Elusimicrobium minutum.

Получение параметров рамок

Команда: infoseq -only -name -length -accession -description Orfs.fasta > OrfTable.csv
-only - опция, позволяющая указывать только то, что нужно на выходе.
-length - длина рамки.
-accession - AC.
-description - описание рамки считывания, в том числе, координаты и направление цепи.
С помощью infoseq была получена таблица с параметрами рамок в файле OrfTable.xlsx
Ссылка на таблицу с параметрами рамок

Задание 2

Ссылка на таблицу с параметрами генов. Вместо GI был взят Accession гена. Accession гена соответствует Accession белка в файле .faa
Ссылка на файл с последовательностями генов белков

Задание 3

Ссылка на общую таблицу для сравнения генов белков и открытых рамок считывания

Найденные расхождения

1. Число открытых рамок ~ 20 000, число генов ~ 2 000
2. Открытые рамки считывания иногда начинаются на пару десятков нуклеотидов, чем соответствующие аннотированные гены.
3. Координаты открытых рамок считывания не включают в себя стоп-кодон, в то время, как аннотированные гены включают.
4. Не для всех белков были найдены открытые рамки считывания.