blastall

На главную страницу третьего семестра

Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Создание индексных файлов для работы с локальными версиями программ семейства BLAST.

    На сервере kodomo-count создал индексные файлы для генома холерного вибриона с помощью команды
    formatdb -i vc_genome.fasta -p F -n vc
    Для синегнойной палочки:
    formatdb -i pa_genome.fasta -p F -n pa
    И для бактерии Pasteurella multocida:
    formatdb -i pm_genome.fasta -p F -n pm

  2. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на заданный.

    Мне необходимо было провести поиск белков, гомологичных COAE_ECOLI, в неаннотированной нуклеотидной последовательности организма Vibrio cholerae (Pseudomonas aeruginosa/Pasteurella multocida). Для такой задачи хорошо подходит программа TBLASTN из пакета программ BLAST. Операция поиска проходила через сервер kodomo-count программой "blastall" по командам:
    blastall -p tblastn -d vc -i COAE_ECOLI.fasta -o vc_coae_out
    blastall -p tblastn -d pa -i COAE_ECOLI.fasta -o pa_coae_out
    blastall -p tblastn -d pm -i COAE_ECOLI.fasta -o pm_coae_out
    На основе результатов, полученых в виде файлов: по Vibrio cholerae, Pseudomonas aeruginosa и Pasteurella multocida,- была заполнена следующая таблица:
    Таблица1
    Поиск гомологов COAE_ECOLI Геном
    Vibrio cholerae
    Геном
    Pseudomonas aeruginosa
    Геном
    Pasteurella multocida
    Характеристика лучшей находки:      
         E-value находки 2e-54 4e-48 1e-52
      координаты выравнивания(-ий)
    в записи генома
    6494-7093
    (хромосома I, секция 220-я из 251 секций в геноме)
    2092-2673
    (секция 428-я из 529 генома)
    4816-5421(секция 11 из 204 секций полного генома)
    AC соответствующей записи EMBL AE004312 AE004867 AE006044
      Координаты CDS в записи EMBL 6461-7102 2080-2691 4816-5436
      AC UniProt в записи EMBL Q9KPE3 Q9HVP8 Q9CPF5
    Число находок с Е-value<0,01
    1 2 1
    Поиск по трем геномам одновременно:
    Е-value лучшей находки
    5e-54 7e-48 6e-52
    Общее число находок с E-value<0,01
    1 1 1
    3

    Для заполнения строк, требующих информацию из записей EMBL, пришлось получить эти записи с помощью команды:
    entret embl:AE00.... -auto
    Только с организмом Pseudomonas aeruginosa (AC=AE004867) этого не получилось, поскольку серверу не хватало времени на скачивание документа ("Died: Socket read timeout"). Поэтому я попробовал найти его через SRS в БД EMBL, из чего выяснилось, что документ AE004867 переместили в AE004091, являющийся файлом полного генома. Искомый же документ EMBL AE004867 я обнаружил в архиве. По данному архивному документу я и заполнил необходимые ячейки в таблице.

  3. Аналогичный поиск сразу в нескольких геномах

    Для того, чтобы провести поиск сразу по трем геномам я завел 2 переменных:
    genpath=/home/export/samba/public/tmp
     и
    genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
    А затем с их помощью создал индексный файл сразу по трем геномам, не скачивая их при этом в директорию своего диска.
    Используя полученный файл и команду:
    blastall -p tblastn -d 3g -i COAE_ECOLI.fasta -o 3g_coae_out
    получаем результат поиска в трех геномах белков, похожих на COAE_ECOLI. Информация по E-value лучших находок занесена в таблицу1.
    Можно наблюдать крайне незначительное увеличение E-value. Которое вполне закономерно, учитывая трехкратное увеличение данных ввода. Количество случайных находок с тем же весом выравнивания очевидно не может от этого уменьшится.
  4. Поиск гомологов с помощью программы BLASTN

    Отличие поиска от предыдущего состоит в том, что мы ищем гомологи среди трех геномов не по аминокислотной последовательности моего белка, а по его нуклеотидной последовательности. Для этого мы используем специальную программу BLASTN. С помощью команды:
    blastall -p blastn -d 3g -i coae_gen.fasta -o 3g_coae_gen_out
    выполняем операцию поиска. Лучшей находкой оказался лишь выровненный кусок последовательности:
    Query: 205  gccttgcgcgagcggatcttc 225 
                |||||||||||||||||||||     
    Sbjct: 2290 gccttgcgcgagcggatcttc 2310
    
    E-value=0.002 - довольно высокий, что можно объяснить небольшой длиной взятого на выравнивание участка. AC документа EMBL данной находки - AE004867; документ был заменен на документ AE004091 - полный геном организма Pseudomonas aeruginosa PAO1. Сам же участок, взятый из выравнивания, находится в секции 428-й из 529. В целом мы видим, что программа BLASTN хуже подходит для опреации поиска гомологов заданного белка в неаннотированных последовательностях, чем программа TBLASTN.


©Куликовский, Алексей