EMBOSS

Главная страница
Упражнения.

1. (seqret) Несколько файлов в формате fasta собрать в единый файл

tana_shir@kodomo:~/term3/block3/emboss$ seqret
Read and write (return) sequences
Input (gapped) sequence(s): sw: *yeast*
output sequence(s) [sdhx_yeast.fasta]:

В файл sdhx_yeast.fasta записались последовательности из Swissprot, в названиях которых встречается слово «yeast».

2. (seqretsplit) Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

tana_shir@kodomo:~/term3/block3/emboss$ seqretsplit
Read sequences and write them to individual files
Input (gapped) sequence(s): sdhx_yeast.fasta
output sequence(s) [sdhx_yeast.fasta]:

3. (transeq) Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.

tana_shir@kodomo:~/term3/block3/emboss$ transeq
Translate nucleic acid sequences
Input nucleotide sequence(s): 123.fasta
protein output sequence(s) [123.pep]:

4. (transeq) Транслировать данную нуклеотидную последовательность в шести рамках.

tana_shir@kodomo:~/term3/block3/emboss$ transeq -frame=6
Translate nucleic acid sequences
Input nucleotide sequence(s): 123.fasta
protein output sequence(s) [123.pep]:


5. (seqret) Перевести выравнивание и из fasta формате в формат .msf

tana_shir@kodomo:~/term3/block3/emboss$ seqret
Read and write (return) sequences
Input (gapped) sequence(s): gep7_yeast.fasta
output sequence(s) [gep7_yeast.fasta]: msf::123_yeast.msf



Для анализа была выбрана бактерия Flavobacterium branchiophilum FL-15, которая имеет только одну хромосому.

С помощью команды “entret embl:FQ859183” была получена запись генома бактерии из банка EMBL.

С помощью команды «getorf fq859183.entret -minsize 180 -table 11 -find 1 -circular yes» получены трансляции открытых рамок считывания.

-minsize 180 -минимальная длина рамки
-table 11 – бактериальный генетический код
-find 1 – поиск, начиная со старт- и заканчивая стоп-кодоном
-circular yes – кольцевая хромосома

С помощью команды «infoseq fq859183.orf -only -name -length -description -outfile fq_out» получены ID открытой рамки, координаты в геноме и длина трансляции. Потом эта информация была обработана в Excel.
Далее была скачана таблица аннотированных белков.

Последовательности белков.

Обе таблицы + сводная таблица.

Для первых 100 строк сводной таблицы выявлены следующие случаи:

Для аннотированного белка нет открытой рамки (начало и конец нельзя сопоставить) - 5 случаев.
Среди них есть короткие, которые не были получены getorf, но есть и длинные. Например, первый белок. Возможно, он не был получен в первой таблице в связи с техническими сложностями при прочтении концов нуклеотидных последовательностей.

Не совпадают начало, конец и, соответственно длина белка (обычно на 1-10 аминокислоты, в одном случае на 43) – всего 14 случаев.

Положение конца смещено на три нуклеотида – 6 случаев.
Это объясняется тем, что в таблице с аннотированными белками стоп-кодон учитывается, а в таблице с рамками считывания – нет.

Полное совпадение – 1 случай.
Вероятно, ошибка в таблице.

© Широковских Татьяна