Зачетное задание 1. Что кодирует фрагмент нуклеотидной последовательности?

Дано: неаннотированный фрагмент генома бактерии Yersinia intermedia.
Задача: определить, кодирует ли заданный Вам фрагмент что-либо, похожее на какой-либо белок из прототипного организма.

Вариант 2

Список выполняемых программ

  1. Для получения нужного фрагмента генома использовалась программа
    seqret  embl:AALF01000002 -sask
    
    с дальнейшим указанием координат начала и конца участка (21001-28000)
  2. Был получен полный протеом E.coli (из SwissProt).
    seqret sw:*_ECOLI > ecoli.fasta
    
    А также были созданы индексные файлы для поиска программами пакета BLAST.
    
    formatdb -i ecoli.fasta -p T -n eco
    
    
  3. Затем из данного фрагмента были извлечены трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов. При этом была использована программа getorf пакета EMBOSS.
    
    getorf -minsize 240 -table 11 -find 1 > frames.orf 
    
    
    Параметры:
    - minsize - Минимальная длина рамки
    - table - 11- bacterial - тип генетического кода (стандартный бактериальный)
    - find 1 - открытой рамкой считать последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.

    Получен файл frames.orf

  4. После получения всех возможных трансляций данного участка, мы получаем совокупность аминокислотных последовательностей. Поэтому, для поиска гомологов использовалась программа blastp, т.е поиск аминокислотных последовательностей по данной аминокислотной последовательности.
    Параметры:
    -e 0.001 -- E-value<0,001.
    
    blastall -p blastp -d eco -i frames.orf -e 0.001 -o blast 
    
    
  5. Затем, с использованием возможностей Excel(см. файл result.xls), был написан скрипт для подсчета числа сходных последовательностей для каждой ORF из заданного фрагмента генома Yersinia intermedia.
    seqret frames.orf:AALF01000002_1 stdout | blastall -p blastp -d eco -e 0.001| grep ">" -c > result.txt
    seqret frames.orf:AALF01000002_2 stdout | blastall -p blastp -d eco -e 0.001| grep ">" -c >> result.txt
    seqret frames.orf:AALF01000002_3 stdout | blastall -p blastp -d eco -e 0.001| grep ">" -c >> result.txt
    seqret frames.orf:AALF01000002_4 stdout | blastall -p blastp -d eco -e 0.001| grep ">" -c >> result.txt
    seqret frames.orf:AALF01000002_5 stdout | blastall -p blastp -d eco -e 0.001| grep ">" -c >> result.txt
    seqret frames.orf:AALF01000002_6 stdout | blastall -p blastp -d eco -e 0.001| grep ">" -c >> result.txt
    seqret frames.orf:AALF01000002_7 stdout | blastall -p blastp -d eco -e 0.001| grep ">" -c >> result.txt
    seqret frames.orf:AALF01000002_8 stdout | blastall -p blastp -d eco -e 0.001| grep ">" -c >> result.txt
    seqret frames.orf:AALF01000002_9 stdout | blastall -p blastp -d eco -e 0.001| grep ">" -c >> result.txt
    seqret frames.orf:AALF01000002_10 stdout | blastall -p blastp -d eco -e 0.001| grep ">" -c >> result.txt
    seqret frames.orf:AALF01000002_11 stdout | blastall -p blastp -d eco -e 0.001| grep ">" -c >> result.txt
    
    
    Файл frames.orf получен после использования команды getorf (см. пункт 3), содержит трансляции участка генома по всем открытым рамкам считывания, AALF01000002_N - идентификаторы рамок, result.txt - файл, содержащий столбец чисел, каждое из которых равно количеству сходных последовательностей из E.coli для соответствующей ORF. Параметр "-c" в программе grep позволяет посчитать количество строк в документе, которые содержат указанный символ (в данном случае ">").
  6. Полученный столбец чисел перенесен в книгу Excel, где был сопоставлен с идентификаторами рамок считывания.

    Описание полученных результатов