Третий семестр

Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Создание индексных файлов для работы с локальными версиями программ семейства BLAST
  2. Работа проводилась со следующими файлами:


    С помощью программы formatdb были созданы индексные файлы, при этом использовались следующие параметры:

     
    -i     файл, подаваемый на вход
    -p     тип последовательности в файле (T - аминокислотная, F - нуклеотидная)
    -n     первая часть файла с расширением (nhr, nin или nsq)
    
    Для генома синегнойной палочки (Pseudomonas aeruginosa) использовалась команда:

    formatdb -i pa_genome.fasta -p F -n pa

    (для других геномов были выполнены аналогичные команды). В результате было получено 9 индексных файлов для поиска, по 3 для каждого из геномов.

  3. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на заданный
  4. В задании требуется определить, не закодированы ли в геномах организмов Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida белки, похожие на мой белок - GLMU.ECOLI, аминокислотная последовательность которого известна. Из предложенных программ для выполнения задания наиболее подходит программа TBLASTN.
    С помощью команды:
    blastall -p tblastn -d pa -i glmu.fasta -o resultpa.txt
    (и аналогичных для двух других геномов) получены следующие файлы
    для Pseudomonas aeruginosa
    для Pasteurella multocida
    для Vibrio cholerae

    результаты представлены в таблице:


    Поиск гомологов GLMU_Ecoli Геном Pseudomonas aeruginos Геном Vibrio cholerae Геном Pasteurella multocida
    Характеристика лучшей находки:      
         E-value находки  e-141  0.0  0.0
      координаты выравнивания(-ий)
    в записи генома
     9430..8075 (комп)  7243..5894 (компл)  5421..6785
    AC соответствующей записи EMBL  AE004967  AE004342  AE006217
      Координаты CDS в записи EMBL (если они есть)    5891..7252  5421..6797
      AC UniProt в записи EMBL (если есть)    Q9KNH7  Q9CK29
    Число находок с Е-value<0,01
     2  4  5

    Поиск по трем геномам сразу

    Число находок с Е-value<0,01  2  4  3
    E-value лучшей находки  e-140  0.0  0.0
    АС лучшей находки  AE004967  AE004342  AE006217

  5. Аналогичный поиск сразу в нескольких геномах
  6. Поиск похожих белков проводился по всем трем геномам. Были созданы индексные файлы сразу для 3-х геномов.
    Выпонены следующие команды:

    genpath=/home/export/samba/public/tmp -ввод переменнной, для того, чтобы не набирать несколько раз один и тот же путь к файлам;

    genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta" -ввод переменной, обозначающей все три файла с геномами;

    formatdb -i "$genomes" -n 3g -p F - получены индексные файлы;

    blastall -p tblastn -d 3g -i glmu_ecoli.fasta -o result-3g.txt -получен файл с выравниваниями.

    Результаты отображены в таблице.

    Были найдены те же находки, что и при поиске по каждому из геномов, только с большим E-value. Увеличение вероятности нахождение данной последовательности вызвано увеличением банка поиска при поиске по 3 геномам.
    Количество находок с Е-value<0,01 для Pseudomonas aeruginosa и Vibrio cholerae не изменилось, а для Pasteurella multocida - уменьшилось на две.

  7. Поиск гомологов с помощью программы BLASTN
  8. С комощью программы BLASTN был произведен поиск гомологов белка GLMU_ECOLI по гену, кодирующемуего. в 3 геномах из предыдущего задания.

    Выполнена команда blastall -p blastn -d 3g -i glmu_gene2.fasta -o result-3g-b.txt

    E-value лучшей находки = 2e-07. Выравнивание, соответствующее лучшей находке:

    >embl|AE004967|AE004967 Pseudomonas aeruginosa PAO1, section 528 of
                529 of the complete genome.
              Length = 16662
    
     Score = 56.0 bits (28), Expect = 2e-07
     Identities = 40/44 (90%)
     Strand = Plus / Minus
    
                                                            
    Query: 1129 aacatcggcgcgggaaccattacctgcaactacgatggtgcgaa 1172
                ||||||||||| || ||||| ||||||||||||||||| |||||
    Sbjct: 8314 aacatcggcgccggcaccatcacctgcaactacgatggcgcgaa 8271  

    Лучшая находка AE004967. Эту же запись нам выдана программой TBLASTN при поиске гомологов по трем геномам сразу. E-value больше, чем при поиске в TBLASTN. Увеличение банка данных происходит из-за того, что нуклеотидные последовательности длиннее белковых. Также нуклеодтидов всего 4, а аминокислот 20, следовательно, вероятность совпадения с нуклеотидом намного выше. Этим можно объяснить возрастание E-value.