Главная
Учебные материалы

Программы пакета BLAST для работы с нуклеотидными последовательностями

  • Поиск в геноме участков, кодирующих белки, похожие на заданный
  • Известна аминокислотная последовательность белка COAA_ECOLI из Escherichia coli K-12. Задача: определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.

    В рабочей директории были созданы индексные файлы пакета BLAST для поиска по геному P.multocida.

    formatdb -i pm_genome.fasta -p F -n pm

    Дальше посредством Putty была запущена программа TBLASTN с пороговым значением E-value 0,001.

    blastall -p tblastn -d pm -i muth_ecoli.fasta -o out.txt -e 0.001

    Результат работы программы - файл out.txt. По результатам поиска была заполнена таблица:

    Поиск гомологов белка muth_ecoli в геноме бактерии Pasteurella multocida

    Число находок с Е-value<0,001         2
    Характеристика лучшей находки:  
       E-value находки   e-113
    AC соответствующей записи EMBL  AE006212
    Координаты выравнивания в записи EMBL  2098 - 3009
    Координаты CDS в записи EMBL  2062 - 3012
    Наименование белка  COAA_PASMU

  • Аналогичный поиск сразу в нескольких геномах
  • В директории были созданы индексные файлы BLAST для поиска по всем трем геномам сразу. С помощью выбранной ранее программы был проведен поиск по трем геномам. Результаты поиска содержатся в файле 3out.txt.

    В этот раз было обнаружено 4 находки. Лучшей находкой теперь является находка с AC в EMBL AE008893 с E-value e-176. Вторая находка с AC AE006212 найдена в геноме бактерии Pasteurella multocida и соответствует лучше находке предыдущего поиска. Однако значения E-value в этом поиске выше на 1 порядок.

  • Поиск гомологов с помощью программы BLASTN
  • В рабочей директории был создан fasta-файл с последовательностью из генома E.coli, кодирующей белок COAA_ECOLI (для этого была взята запись M36321 EMBL, на которую ссылается запись Swiss-Prot,в ней были найдены координаты соответствующей CDS и вырезаны в файл coaa.fasta ).

    Гомологи этого гена искались в трёх геномах программой BLASTN с пороговым значением E-value 0.001. Результат работы программы - файл 3ga.txt . Было обнаружено 2 находки, причем лучшая (AE008893 E-value e-124 ) является также лучшей находкой в предыдущем поиске по 3 геномам, а вторая (AE006212 E-value 2e-04) была лучшей находкой первого поиска, но ее e-value упало на ~100 порядков. Выравнивание приведено ниже:

    Query: 46    gccagaaacatgcttatgagtataaaagagcaaacgttaatgacgccttacctacagttt 105
                 ||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||
    Sbjct: 16788 gccagaaacatgcttatgagtataaaagagcaatcgttaatgacgccttacctacagttt 16729
    
                                                                             
    Query: 106   gaccgcaaccagtgggcagctctgcgtgattccgtacctatgacgttatcggaagatgag 165
                 || |||| ||||||||| || || || ||||| || || |||||  |  | || ||||||
    Sbjct: 16728 gatcgcagccagtgggctgcgcttcgcgattctgtgccgatgaccctgaccgaggatgag 16669
    
                                                                             
    Query: 166   atcgcccgtctcaaaggtattaatgaagatctctcgttagaagaagttgccgagatctat 225
                 ||||| |   | ||||| |||||||||||| | ||| | ||||||||||| || || |||
    Sbjct: 16668 atcgcgcagttaaaaggcattaatgaagatttatcgctggaagaagttgcagaaatatat 16609
    
                                                                             
    Query: 226   ttacctttgtcacgtttgctgaacttctatataagctcgaatctgcgccgtcaggcagtt 285
                 |||||| | || |||||||| || |||||||| || || |||||||| |||||||| || 
    Sbjct: 16608 ttacctctctcccgtttgctaaatttctatatcagttcaaatctgcgtcgtcaggctgtc 16549
    
                                                                             
    Query: 286   ctggaacagtttcttggtaccaacgggcaacgcattccttacattatcagtattgctggc 345
                 |||||||||||||| || || ||||| || || || |||||||| |||||||| || |||
    Sbjct: 16548 ctggaacagtttctgggcactaacggccagcgaatcccttacatcatcagtatcgcgggc 16489
    
                                                                             
    Query: 346   agtgtcgcggtggggaaaagtacaaccgcccgtgtattgcaggcgctattaagccgttgg 405
                 || ||||| ||||| ||||| || || || || ||  |||| ||| |  | || || |||
    Sbjct: 16488 agcgtcgcagtgggtaaaagcacgacagcacgcgttctgcaagcgttgctgagtcgctgg 16429
    
                                                                             
    Query: 406   ccggaacatcgtcgtgttgaactgatcactacagatggcttccttcaccctaatcaggtt 465
                 |||||||| || ||||||||| |||| || ||||| |||||||| ||||| || ||||| 
    Sbjct: 16428 ccggaacaccgccgtgttgaattgattaccacagacggcttcctccacccaaaccaggtg 16369
    
                                                                             
    Query: 466   ctgaaagaacgtggtctgatgaagaagaaaggcttcccggaatcgtatgatatgcatcgc 525
                  |||||||||| ||  | |||||||| || || ||||| ||||||||||||||||| || 
    Sbjct: 16368 ttgaaagaacgcgggttaatgaagaaaaaggggttccccgaatcgtatgatatgcaccga 16309
    
                                                                             
    Query: 526   ctggtgaagtttgtttccgatctcaaatccggcgtgccaaacgttacagcacctgtttac 585
                 |||||||| || ||||| || ||||| || ||||| || ||||| || || || || || 
    Sbjct: 16308 ctggtgaaattcgtttctgacctcaagtcgggcgtaccgaacgtgacggcgccagtctat 16249
    
                                                                             
    Query: 586   tcacatcttatttatgatgtgatcccggatggagataaaacggttgttcagcctgatatt 645
                 || ||| | ||||| ||||| || || || || |||||||| || | |||||||||||| 
    Sbjct: 16248 tctcatttgatttacgatgttattcctgaaggggataaaaccgtcgctcagcctgatata 16189
    
                                                                             
    Query: 646   ttaattcttgaagggttaaatgtcttacagagcgggatggattatccacacgatccacat 705
                 || ||||||||||| || ||||| ||||| ||||| ||||||||||| |||||||| |||
    Sbjct: 16188 ttgattcttgaaggtttgaatgttttacaaagcggtatggattatcctcacgatccgcat 16129
    
                                                                             
    Query: 706   catgtatttgtttctgattttgtcgatttttcgatatatgttgatgcaccggaagactta 765
                 ||||||||||| |||||||| || ||||| || || || || ||||| || |||||  | 
    Sbjct: 16128 catgtatttgtctctgatttcgttgatttctctatttacgtggatgcgccagaagaactt 16069
    
                                                                             
    Query: 766   cttcagacatggtatatcaaccgttttctgaaattccgcgaaggggcttttaccgacccg 825
                 |||||||| ||||||||||| || || |||||||||||||||||||| |||||||| || 
    Sbjct: 16068 cttcagacgtggtatatcaatcgcttcctgaaattccgcgaaggggcgtttaccgatcct 16009
    
                                                             
    Query: 826   gattcctattttcataactacgcgaaattaactaaagaagaagc 869
                 || || ||||| || || || ||||||||| |||||||||||||
    Sbjct: 16008 gactcttatttccacaattatgcgaaattatctaaagaagaagc 15965
    

  • Работа с программой getorf пакета EMBOSS
  • Чтобы получить набор трансляций всех открытых рамок считывания данной пследовательности длиной более 30 нуклеотидов, считая открытой рамкой последователньость триплетов, начиная со старт- кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кодона:

    getorf -minsize 30 -find 1 -table 11

    Input nucleotide sequence(s): D89965.fasta

    Protein output sequence(s): d89965.orf

    Пятая в выдаче рамка считывания соответствует,приведённой в записи CDS.

    >D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds. 
    MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ
    FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE
    LTPWLRIQSTNPVQKYGA
    

    Последняя в выдаче рамка соответствует записи Swiss-Prot, на которую ссылается данная запись EMBL:

    >D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. 
    MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
    FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
    IAIGS 
    ©Залевский, Артур, 2007