EMBOSS

Упражнения

    Выполнил следующие упражнения:
  1. Собрал несколько .fasta файлов в один:
    sstarikov@kodomo:~/public_html/term3/block2$ ls *.fasta > list
    sstarikov@kodomo:~/public_html/term3/block2$ seqret @list sequences.fasta
  2. Разделил файл с несколькими последовательностями на несколько .fasta файлов:
    sstarikov@kodomo:~/public_html/term3/block2$ seqretsplit some.fasta seq.fasta
    Read sequences and write them to individual files
    
  3. Транслировал последовательность в шести рамках:
    sstarikov@kodomo:~/public_html/term3/block2$ transeq final.fasta frames.fasta -frame 6
    Translate nucleic acid sequences
    
  4. Перевел выравнивание из fasta формата в формат .msf
    sstarikov@kodomo:~/public_html/term3/block2$ seqret somealignment.fasta msf::somealignment.msf
    Read and write (return) sequences
    
  5. Нашел частоты кодонов в данных кодирующих последовательностях:
    sstarikov@kodomo:~/public_html/term3/block2$ cusp final.fasta freq.cusp
    Create a codon usage table from nucleotide sequence(s)
    

    Получился файл freq.cusp с таблицей, в которой указаны кодоны, какие аминокислоты они кодируют, сколько было найдено кодонов каждого типа и какой процент от общего числа они составляют.

Сравнение аннотации генов белков в хромосоме бактерии Dyadobacter fermentans DSM 18053 с трансляциями длинных открытых рамок считывания

Бактерия - Dyadobacter fermentans DSM 18053 (NC_013037.1, CP001619.1)
Я получил список координат и ориентаций найденных открытых рамок так:

getorf NC_013037.gb orfs.fasta -table 11 -minsize 180 -find 1 -circular

-table таблица генетического кода, здесь 11 (бактериальная таблица генетического кода)
-minsize минимальная длина открытой рамки
-find 1 позволяет транслировать найденные рамки от старт-кодона до стоп-кодона
-circular данная молекула ДНК имеет кольцевую структуру

Я получил файл с трансляциями длинных открытых рамок с помощью программы infoseq так:

infoseq orfs.fasta -outfile info.txt -only -name -length -description

Затем я преобразовал файл в .xlsx и отсортировал по старту: orfs.xlsx
Затем я создал файл с аннотированными генами белков: prot.xlsx
Последовательности белков - в файле protein_seq.fasta
Затем я создал объединенную таблицу и отсортировал ее: fullsorted.xlsx
    Я сделал следующие наблюдения:
  1. Открытых рамок найдено в 7 раз больше, чем аннотированных генов белков.
    Это можно объяснить тем, что далеко не все рамки являются генами, а также тем, что в таблице представлены только аннотированные гены белков (нет генов РНК,...).
  2. ORF, соответствующие генам белков, обычно длиннее генов белков. (см. 5)
  3. ORF, соответствующие генам белков, обычно заканчиваются на 3 нуклеотида раньше, чем гены белков (координаты ORF - не включают стоп-кодон).
  4. Не для всех белков были найдены ORF - не найдены для многих длинных генов.
    Причина, скорее всего, в том, что я определял ORF от старт до стоп кодонов, таких ORF получилось много, причем коротких. Деталей алгоритма поиска ORF не знаю, поэтому не могу сказать, как именно он находил ORF.
  5. Открытые рамки считывания начинаются раньше обычно на пару десятков нуклеотидов, чем соответствующие аннотированные гены.

  6. Из-за порога длины ORF величиной 180 bp не были найдены рамки для коротких аннотированных белков (до 60 aa).

Антипараллельные рамки

Примеры с перекрыванием более 150 п.н. (а таких примеров очень много):

Рамка на обратной цепи перекрывается с геном белка.

Рамка на обратной цепи не перекрывается с генами белков.


Моя главная страница
© Sergey Starikov, 2015