Зачетное задание по BLAST

Дано: неаннотированный фрагмент генома бактерии Regiella insecticola

Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии (кишечной палочки).

Получим фрагмент генома Regiella insecticola из заданной записи EMBL с заданным началом, длиной 7000 нуклеотидов:

seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): ac192956.fasta
Begin at position [start]: 63001
End at position [end]: 70001
Reverse strand [N]: N
output sequence(s) [ac192956.fasta]: output.fasta
Определим, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12.

Инструменты для решения поставленной задачи будут описаны в ходе выполнения задания.

  1. Получим полный протеом E. coli из Swiss-Prot.
    seqret sw:*_ecoli    
    
    Создадим индексные файлы для работы с помощью программ пакета BLAST.
    formatdb -i bibl.fasta -n index -p t
    
  2. Извлечем из моего фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов. Для этого воспользуемся программой getorf из пакета EMBOSS (используем стандартный для бактерий (bacterial) генетический код и считаем открытой рамкой последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном).
    getorf -minsize 240 -find 1 -table 11
    Finds and extracts open reading frames (ORFs)
    Input nucleotide sequence(s): output.fasta
    protein output sequence(s) [ac192956.orf]: output.orf
    
  3. Создадим книгу Excel, включающую информацию обо всех открытых рамках считывания в исследуемом фрагменте генома. Для каждой рамки укажем: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных программой BLAST в протеоме E. coli K12 при условии E-value<0,001.
    blastall -p blastp -d index -i output.fasta -e 0.001 > blast.out
    
  4. Будем исследовать и анализировать только те открытые рамки, для которых нашлась хотя бы одна сходная последовательность. Полученная таблица содержит два дополнительных столбца, в которых приведены: идентификатор самого близкого из найденных белков E. coli и E-value находки.
  5. Изобразим схематически положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli.

    Гипотетические гены во фрагменте 63001–70001 записи AC192956

    
    3'-[<= ACCD, 3-968]-[<= DEDA, 1069-1728]-[<= TRUA, 1766-2137]-[<= TRUA, 3165-3530]-[<= PDXB, 3534-4652]--[<= YQIC, 6127-6295]------------------------5'
    5'------------------------------------------------------------------------------------------------------------------------------[=> RIBB, 6739-6999]-3'
    
  6. Сравним взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки.

    Гомологичные гены в в геноме кишечной палочки

    ribB  3181829..3182482 (-)
    accD  2431032..2431946 (-)
    dedA  2432102..2432761 (-)
    truA  2432844..2433656 (-)
    pdxB  2434735..2435871 (-)
    yqiC  3182796..3183146 (+)
    
    Все эти гены распологаются относительно близко друг к другу в геноме кишечной палочки. Заметно, что на исследуемом участке они располагаются так же близко. Можно заметить, что все гены (кроме ribB и yqiC) располагаются на той же по направлению цепи. Эти два гена меняют расположения. Но все же можно сделать вывод о присутствии консервативности в этих последовательностях.

  7. * В полученном наборе предполагаемых генов не имеется перекрываний генов. Но возник вопрос о том, что ген TRUA был найден в рамке считывания 2 раза. Возможно предположение, что эти участки после транскрипции соединяются в одну РНК.

На начальную страницу

©Пискунова Юлия 2009