Программы пакета BLAST для работы с нуклеотидными последовательностями.(Продолжение)

  1. Работа с программой getorf пакета EMBOSS
  2. Получим файл с записью D89965 банка EMBL.
    entret embl:D89965 -auto

    Выполните команду

     tfm getorf
    
    для D89965 так, чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов (открытая рамка - последовательность триплетов, начинающаяся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода).
    getorf -minsize 30 -find 1 -table 11
    Finds and extracts open reading frames (ORFs)
    Input nucleotide sequence(s): d89965.entret
    protein output sequence(s) [d89965.orf]: d89965.orf
    
    Пятая открытая рамка соответствует приведённой в записи CDS. 13 рамка соответствует записи Swiss-Prot, на которую ссылается данная запись EMBL.

  3. Поиск некодирующих последовательностей программой BLASTN
  4. Запустим программу blastn, указав в качестве последовательностей для поиска файл trna_ecoli.fasta, в качестве банка — геном бактерии Pasteurella multocida с функцией "-m 8" программы blastall. Порог E-value не указываем. Получим выходной файл.

    С помощью команды:

    grep valV genome.txt -c
    мы узнаем количество строк, включающих информацию для белка valV.

    Создадим в файле Excel колонку из названий входных последовательностей. Затем создадим скрипт, в результате работы которого мы узнаем количество находок для каждой такой последовательности.

    Повторим поиск, на этот раз указав порог на E-value, равный 0.001,добавив таблицу столбец.

    Результат работы : Excel.

  5. Поиск некодирующих последовательностей программой megablast
  6. Повторим предыдущее задание, используя вместо BLASTN сначала обычный megablast, а затем разрывный ("discontigous") megablast. Программа megablast запускается с опциями, большая часть которых аналогична опциям программы blastall; чтобы запустить discontigous megablast, нужно явно указать правильные значения опций "-t", "-W" и "-N".

    Командные строки:

    megablast -d index -i trna_ecoli.fasta -o mblast.txt -m 8
    
    megablast -d index -i trna_ecoli.fasta -o mblas.txt -m 8 
    -N 1 -W 11 -t 16
    
    Результаты помещены в соотвествующие столбцы в файле Excel.

  7. Анализ результатов
  8. Выберем пару из tRNA E.coli и найденного в геноме Pasteurella multocida гомологичного участка из заданий 2 и 3, такую, которая находится программой BLASTN и не находится программой megablast - selC. Про программу megablast сказано, что она предназначена для выравнивания последовательностей, отличающихся незначительно (ошибки в секвенировании), а так же длинной поиска последовательности. Скорее всего,именно из-за поиска длинных последовательностей megablast не нашел последовательность в отличие от программы blastn.

    Вырежем участок тРНК E.coli- selC в отдельный файл командой seqret -sask и гомологичный из другой бактерии (AE006214). Выровняем две последовательности программой needle.

    Gap_penalty: 10.0
    Extend_penalty: 0.5
    
    Length: 95
    Identity:      61/95 (64.2%)
    Similarity:    61/95 (64.2%)
    Gaps:          22/95 (23.2%)
    Score: 257.0
        

    Данный участок проаннотирован - селеноцистеин тРНК. Эти выравнивания совпадают частично, потому что BLASTn не выравнивает концы, но в тоже время довольно высокие проценты в связи с значимостью тРНК в процессах в клетках.


На начальную страницу

©Пискунова Юлия 2009