Занятие 3. Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Создание индексных файлов для программ пакета BLAST
  2. formatdb -i xc_genome.fasta -p F -n Xc
    Эта командная строка создает индексные файлы пакета BLAST для поиска по заданному геному.


  3. Поиск в геноме участков, кодирующих белки, похожие на заданный
  4. blastall -p tblastn -d Xc -i ILVC_ECOLI.fasta -o result -e 0.001

    Поиск гомологов ILVC_ECOLI Геном бактерии Xanthomonas campestris
    Число находок с Е-value<0,001 1
    Характеристика лучшей находки:  
       E-value находки 4e-32
      AC соответствующей записи EMBL AE012450
      координаты выравнивания в записи EMBL 375-1202, 882-1292
      Координаты CDS в записи EMBL 351..1352
      AC UniProt в записи EMBL Q8P5L5
     Геномы Salmonella typhimurium, Xanthomonas campestris, Pasteurella multocida
     E-value лучшей находки предыдущего поиска1e-31
    Число находок с Е-value<0,0013
    Все находки соответствуют генам, кодирующим редуктоизомеразы. Т.е. во всех трех организмах искомые участки найдены. е-value увеличилось, т.к. увеличился банк, по которому ведется поиск (а значит и вероятность найти такое выравнивание в случайном банке).

  5. Поиск гомологов с помощью программы BLASTN
Для гена ilvC лучшая находка:
>AE008882 AE006468 |AE008882| Salmonella typhimurium LT2, section 186 of
             220 of the complete genome.
          Length = 20107

 Score = 1852 bits (934), Expect = 0.0
 Identities = 1339/1474 (90%)
 Strand = Plus / Plus


Query: 1     atggctaactacttcaatacactgaatctgcgccagcagctggcacagctgggcaaatgt 60
             |||||||||||||| ||||||||||||||||||||||||||||| ||| |||| |||||
Sbjct: 11915 atggctaactactttaatacactgaatctgcgccagcagctggcgcagttgggtaaatgc 11974


Query: 61    cgctttatgggccgcgatgaattcgccgatggcgcgagctaccttcagggtaaaaaagta 120
             ||||||||||||||||| ||||||||||| |||||||||||||||||||||||||||||
Sbjct: 11975 cgctttatgggccgcgacgaattcgccgacggcgcgagctaccttcagggtaaaaaagtg 12034


Query: 121   gtcatcgtcggctgtggcgcacagggtctgaaccagggcctgaacatgcgtgattctggt 180
             |||||||||||||||||||| |||||||||||||||||||||||||||||||| || |||
Sbjct: 12035 gtcatcgtcggctgtggcgctcagggtctgaaccagggcctgaacatgcgtgactccggt 12094


Query: 181   ctcgatatctcctacgctctgcgtaaagaagcgattgccgagaagcgcgcgtcctggcgt 240
             || ||||| |||||||| |||||||||||||| ||||| |||||||| || |||||||||
Sbjct: 12095 ctggatatttcctacgccctgcgtaaagaagccattgctgagaagcgtgcttcctggcgt 12154


Query: 241   aaagcgaccgaaaatggttttaaagtgggtacttacgaagaactgatcccacaggcggat 300
             ||||||||||| || || || ||||| || || |||||||| |||||||| ||||| ||
Sbjct: 12155 aaagcgaccgagaacggcttcaaagtaggcacctacgaagagctgatcccgcaggctgac 12214


Query: 301   ctggtgattaacctgacgccggacaagcagcactctgatgtagtgcgcaccgtacagcca 360
             |||||  ||||||||||||||||||| |||||||| || || |||||  ||||||||||
Sbjct: 12215 ctggtagttaacctgacgccggacaaacagcactccgacgtggtgcgttccgtacagccg 12274


Query: 361   ctgatgaaagacggcgcggcgctgggctactcgcacggtttcaacatcgtcgaagtgggc 420
             |||||||||||||||||||||||||||||||| ||||| ||||||||||| |||||||||
Sbjct: 12275 ctgatgaaagacggcgcggcgctgggctactcccacggcttcaacatcgtggaagtgggc 12334


Query: 421   gagcagatccgtaaagatatcaccgtagtgatggttgcgccgaaatgcccaggcaccgaa 480
             ||||||||||||||||| |||||||| |||||||| |||||||| || || |||||||||
Sbjct: 12335 gagcagatccgtaaagacatcaccgtggtgatggtggcgccgaagtgtccgggcaccgaa 12394


Query: 481   gtgcgtgaagagtacaaacgtgggttcggcgtaccgacgctgattgccgttcacccggaa 540
             || |||||||| ||||| ||||| ||||| || ||||||||||| |||||||||||||||
Sbjct: 12395 gtacgtgaagaatacaagcgtggcttcggtgtgccgacgctgatcgccgttcacccggaa 12454


Query: 541   aacgatccgaaaggcgaaggcatggcgattgccaaagcctgggcggctgcaaccggtggt 600
             ||||||||| |||||||||||||||||||||| |||||||||||||| || ||||| |||
Sbjct: 12455 aacgatccgcaaggcgaaggcatggcgattgctaaagcctgggcggcggcgaccggcggt 12514


Query: 601   caccgtgcgggtgtgctggaatcgtccttcgttgcggaagtgaaatctgacctgatgggc 660
             ||||||||||| || ||||| || || ||||| |||||||||||||| ||||||||||||
Sbjct: 12515 caccgtgcgggcgtactggagtcttctttcgtggcggaagtgaaatccgacctgatgggc 12574


Query: 661   gagcaaaccatcctgtgcggtatgttgcaggctggctctctgctgtgcttcgacaagctg 720
             ||||| |||||||||||||||||| ||||||| || ||||||||||| ||||||||||||
Sbjct: 12575 gagcagaccatcctgtgcggtatgctgcaggccggttctctgctgtgtttcgacaagctg 12634


Query: 721   gtggaagaaggtaccgatccagcatacgcgaaaaaactgattcagttcggttgggaaacc 780
             |||| |||||| ||||| || || || ||| ||||||||||||||||||| |||||||||
Sbjct: 12635 gtggcagaaggcaccgacccggcttatgcggaaaaactgattcagttcggctgggaaacc 12694


Query: 781   atcaccgaagcactgaaacagggcggcatcaccctgatgatggaccgtctctctaacccg 840
             ||||||||||| ||||| |||||||||||||||||||||||||||||||| |||||||||
Sbjct: 12695 atcaccgaagcgctgaagcagggcggcatcaccctgatgatggaccgtctgtctaacccg 12754


Query: 841   gcgaaactgcgtgcttatgcgctttctgaacagctgaaagagatcatggcacccctgttc 900
             ||||||||||||||||| ||||| || ||||||||||||||||||||||| || ||||||
Sbjct: 12755 gcgaaactgcgtgcttacgcgctgtccgaacagctgaaagagatcatggcgccgctgttc 12814


Query: 901   cagaaacatatggacgacatcatctccggcgaattctcttccggtatgatggcggactgg 960
             |||||||| ||||| ||||||||||||||||||||||||||||| |||||||| ||||||
Sbjct: 12815 cagaaacacatggatgacatcatctccggcgaattctcttccggcatgatggctgactgg 12874


Query: 961   gccaacgatgataagaaactgctgacctggcgtgaagagaccggcaaaaccgcgtttgaa 1020
             || ||||| ||||||||||||||||||||||||||||||||||||||||||||||| |||
Sbjct: 12875 gctaacgacgataagaaactgctgacctggcgtgaagagaccggcaaaaccgcgttcgaa 12934


Query: 1021  accgcgccgcagtatgaaggcaaaatcggcgagcaggagtacttcgataaaggcgtactg 1080
             |||||||||||||||||||||||||||||||||||||||||||| ||||||||||| |||
Sbjct: 12935 accgcgccgcagtatgaaggcaaaatcggcgagcaggagtactttgataaaggcgtgctg 12994


Query: 1081  atgattgcgatggtgaaagcgggcgttgaactggcgttcgaaaccatggtcgattccggc 1140
             ||||| |||||||||||||||||||||||  ||||||||||||| ||||| |||||||||
Sbjct: 12995 atgatcgcgatggtgaaagcgggcgttgagttggcgttcgaaactatggtggattccggc 13054


Query: 1141  atcattgaagagtctgcatattatgaatcactgcacgagctgccgctgattgccaacacc 1200
             ||||| ||||| || || || || |||||||||||||||||||||||||| |||||||||
Sbjct: 13055 atcatcgaagaatccgcttactacgaatcactgcacgagctgccgctgatcgccaacacc 13114


Query: 1201  atcgcccgtaagcgtctgtacgaaatgaacgtggttatctctgataccgctgagtacggt 1260
             |||||||||||||||||||||||||||||||||||||||||||||||||| || ||||||
Sbjct: 13115 atcgcccgtaagcgtctgtacgaaatgaacgtggttatctctgataccgcagaatacggt 13174


Query: 1261  aactatctgttctcttacgcttgtgtgccgttgctgaaaccgtttatggcagagctgcaa 1320
             ||||| ||||||||||||||||| || ||| ||||||||||||||||||| ||  |||||
Sbjct: 13175 aactacctgttctcttacgcttgcgtaccgctgctgaaaccgtttatggcggaattgcaa 13234


Query: 1321  ccgggcgacctgggtaaagctattccggaaggcgcggtagataacgggcaactgcgtgat 1380
             |||||||| |||||||  ||||| ||||||||||||||||| ||||  || || || ||
Sbjct: 13235 ccgggcgatctgggtagtgctatcccggaaggcgcggtagacaacgcacagcttcgcgac 13294


Query: 1381  gtgaacgaagcgattcgcagccatgcgattgagcaggtaggtaagaaactgcgcggctat 1440
             |||||||| |||||||| || |||||||||||||||||||||||||||||||||||||||
Sbjct: 13295 gtgaacgacgcgattcgtagtcatgcgattgagcaggtaggtaagaaactgcgcggctat 13354


Query: 1441  atgacagatatgaaacgtattgctgttgcgggtt 1474
             ||||| |||||||| |||||||| || |||||||
Sbjct: 13355 atgacggatatgaagcgtattgcggtagcgggtt 13388

Аннотация соответствующего фрагмента генома:

ID   AE008882_49; parent: AE008882
AC   AE008882; AE006468;
FT   CDS             11915..13390
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /gene="ilvC"
FT                   /product="ketol-acid reductoisomerase"
FT                   /EC_number="1.1.1.86"
FT                   /note="ketol-acid reductoisomerase. (SW:ILVC_SALTY)"
FT                   /db_xref="GOA:P05989"
FT                   /db_xref="InterPro:IPR000506"
FT                   /db_xref="InterPro:IPR013023"
FT                   /db_xref="InterPro:IPR013116"
FT                   /db_xref="InterPro:IPR014359"
FT                   /db_xref="UniProtKB/Swiss-Prot:P05989"
FT                   /protein_id="AAL22759.1"
FT                   /translation="MANYFNTLNLRQQLAQLGKCRFMGRDEFADGASYLQGKKVVIVGC
FT                   GAQGLNQGLNMRDSGLDISYALRKEAIAEKRASWRKATENGFKVGTYEELIPQADLVVN
FT                   LTPDKQHSDVVRSVQPLMKDGAALGYSHGFNIVEVGEQIRKDITVVMVAPKCPGTEVRE
FT                   EYKRGFGVPTLIAVHPENDPQGEGMAIAKAWAAATGGHRAGVLESSFVAEVKSDLMGEQ
FT                   TILCGMLQAGSLLCFDKLVAEGTDPAYAEKLIQFGWETITEALKQGGITLMMDRLSNPA
FT                   KLRAYALSEQLKEIMAPLFQKHMDDIISGEFSSGMMADWANDDKKLLTWREETGKTAFE
FT                   TAPQYEGKIGEQEYFDKGVLMIAMVKAGVELAFETMVDSGIIEESAYYESLHELPLIAN
FT                   TIARKRLYEMNVVISDTAEYGNYLFSYACVPLLKPFMAELQPGDLGSAIPEGAVDNAQL
FT                   RDVNDAIRSHAIEQVGKKLRGYMTDMKRIAVAG"
SQ   Sequence  1476 BP;
 ...

ИТОГО: В Salmonella typhimurium найден ген, гомологичный гену ilvC в E.coli
(процент Identities = 1339/1474 (90%) и аннотация это подтверждают) В предыдущем упражнении эта находка также была лучшей.

Назад

На главную

© Поздышев Д.