|
Упражнения. 1. (seqret) Несколько файлов в формате fasta собрать в единый файл tana_shir@kodomo:~/term3/block3/emboss$ seqret Read and write (return) sequences Input (gapped) sequence(s): sw: *yeast* output sequence(s) [sdhx_yeast.fasta]: В файл sdhx_yeast.fasta записались последовательности из Swissprot, в названиях которых встречается слово «yeast». 2. (seqretsplit) Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы tana_shir@kodomo:~/term3/block3/emboss$ seqretsplit Read sequences and write them to individual files Input (gapped) sequence(s): sdhx_yeast.fasta output sequence(s) [sdhx_yeast.fasta]: 3. (transeq) Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле. tana_shir@kodomo:~/term3/block3/emboss$ transeq Translate nucleic acid sequences Input nucleotide sequence(s): 123.fasta protein output sequence(s) [123.pep]: 4. (transeq) Транслировать данную нуклеотидную последовательность в шести рамках. tana_shir@kodomo:~/term3/block3/emboss$ transeq -frame=6 Translate nucleic acid sequences Input nucleotide sequence(s): 123.fasta protein output sequence(s) [123.pep]: 5. (seqret) Перевести выравнивание и из fasta формате в формат .msf tana_shir@kodomo:~/term3/block3/emboss$ seqret Read and write (return) sequences Input (gapped) sequence(s): gep7_yeast.fasta output sequence(s) [gep7_yeast.fasta]: msf::123_yeast.msf Для анализа была выбрана бактерия Flavobacterium branchiophilum FL-15, которая имеет только одну хромосому. С помощью команды “entret embl:FQ859183” была получена запись генома бактерии из банка EMBL. С помощью команды «getorf fq859183.entret -minsize 180 -table 11 -find 1 -circular yes» получены трансляции открытых рамок считывания. -minsize 180 -минимальная длина рамки -table 11 – бактериальный генетический код -find 1 – поиск, начиная со старт- и заканчивая стоп-кодоном -circular yes – кольцевая хромосома С помощью команды «infoseq fq859183.orf -only -name -length -description -outfile fq_out» получены ID открытой рамки, координаты в геноме и длина трансляции. Потом эта информация была обработана в Excel. Далее была скачана таблица аннотированных белков. Последовательности белков. Обе таблицы + сводная таблица. Для первых 100 строк сводной таблицы выявлены следующие случаи: Для аннотированного белка нет открытой рамки (начало и конец нельзя сопоставить) - 5 случаев. Среди них есть короткие, которые не были получены getorf, но есть и длинные. Например, первый белок. Возможно, он не был получен в первой таблице в связи с техническими сложностями при прочтении концов нуклеотидных последовательностей. Не совпадают начало, конец и, соответственно длина белка (обычно на 1-10 аминокислоты, в одном случае на 43) – всего 14 случаев. Положение конца смещено на три нуклеотида – 6 случаев. Это объясняется тем, что в таблице с аннотированными белками стоп-кодон учитывается, а в таблице с рамками считывания – нет. Полное совпадение – 1 случай. Вероятно, ошибка в таблице. |