Последовательности нуклеиновых кислот
Поиск гомологов пакетом BLAST
GO TO:

Создание индексных файлов для программ пакета BLAST
Для поиска гомологов с помощью пакета программ Blast в каком либо геноме для начала, надо в определённой форме проиндексировать этот геном. Тип индексирования зависит от формата данных, в котором находится информация о геноме.
Информация о геноме - в моём случае о полном геноме возбудителя чёрной гнили капусты Xanthomonas campestris - была дана в виде аннотированной нуклеотидной последовательности в файле xc_genome.fasta
Индексирование производилось командой formatdb -p F -t XC -i xc_genome.fasta.

Поиск в геноме Xanthomonas campestris участков, кодирующих белки, похожие на HEMN_ECOLI
Поиск проводился с помощью пакета программ Blast. В нашем случае, так как информация о моём белке дана в виде аминокислотной последовательности, а геном, в котором искались его гомологи - как уже сказано выше - в виде нуклеотиной последовательности, то использовалась программа TBLASTN.

Соответсвующая команда: blastall -p tblastn -i hemn_ecoli.fasta -d xc -e 0.001 -o hemn_xc.blast

Соответсвующие результаты см. в таблице ниже
Поиск гомологов HEMN_ECOLI Геном Xanthomonas campestris
Число находок с Е-value<0,001  2
Характеристика лучшей находки(*):  
   E-value находки  e-108
  AC соответствующей записи EMBL  AE012315
  координаты выравнивания(-ий) в записи EMBL  complement(5613..6986)
  Координаты CDS в записи EMBL (если они есть)  complement(5610..7022)
  AC UniProt в записи EMBL (если есть)  Q8P8Y7
При поиске по 3 геномам: Xanthomonas campestris, Salmonella typhimurium, Pasteurella multocida
E-value находки (*) e-108
Общее число находок 6

Характеристики лучшей находки в геноме Xanthomonas campestris:
 >AE012315 AE008922 |AE012315| Xanthomonas campestris pv. campestris
            str. ATCC 33913,  section 223 of 460 of the complete
            genome.
          Length = 11231

 Score =  387 bits (995), Expect = e-108
 Identities = 205/458 (44%), Positives = 287/458 (62%), Gaps = 7/458 (1%)
 Frame = -1 
При сопоставлении координат выравнивания с CDS в находке, выясняется, что найденный кусок принадлежит белку из семейства капропорфириноген-оксидаз III, к которому принадлежит и мой белок. Однако назвать эту находку полностью удовлетворительной весьма сложно, ибо процент чистых совпадений(identities) и "близких" совпадений (positives) очень не высок, и координаты выравнивания далеко не охватывают всего CDS.

Аналогичный поиск сразу в нескольких геномах
В моём случае при попытке поиска гомологов в геномах сразу трёх различных организмов: Xanthomonas campestris, Salmonella typhimurium, Pasteurella multocida; не привела к изменению ожидания лучшей находки при предыдущем поиске, видимо потому, что две найденные находки с лучшим ожиданием были абсолютно идентичны Hemn_Ecoli. В общем же случае ожидание должно было бы возрасти, ибо, при увеличении размера базы данных, увеличивается и вероятность найти выравнивание лучше уже имеющегося. Формально по формуле получается то же самое: E=Kmn(e^-λS), n больше => E больше.

Три лучших находки при посике в трёх геномах:
>AE008887 AE006468 |AE008887| Salmonella typhimurium LT2, section 191
            of 220 of the complete genome.
          Length = 25806

 Score =  863 bits (2230), Expect = 0.0
 Identities = 423/457 (92%), Positives = 437/457 (95%)
 Frame = +3

>embl|AE006221|AE006221 Pasteurella multocida subsp. multocida str.
            Pm70 section 188 of 204 of the complete genome.
          Length = 10429

 Score =  664 bits (1713), Expect = 0.0
 Identities = 315/455 (69%), Positives = 380/455 (83%)
 Frame = -1

>AE012315 AE008922 |AE012315| Xanthomonas campestris pv. campestris
            str. ATCC 33913,  section 223 of 460 of the complete
            genome.
          Length = 11231

 Score =  387 bits (995), Expect = e-108
 Identities = 205/458 (44%), Positives = 287/458 (62%), Gaps = 7/458 (1%)
 Frame = -1


Поиск гомологов с помощью программы BLASTN
Поиск гомологов гена через BLASTN 3 генома
Число находок с Е-value<0,001  1
Характеристика лучшей находки:  
   E-value находки  0.0
  AC соответствующей записи EMBL  AE008887
Выравнивание лучшей находки:
>AE008887 AE006468 |AE008887| Salmonella typhimurium LT2, section 191
            of 220 of the complete genome.
          Length = 25806

 Score =  901 bits (454), Expect = 0.0
 Identities = 1141/1368 (83%), Gaps = 2/1368 (0%)
 Strand = Plus / Plus

                                                                        
Query: 1    gtgagcatgtctgtacagcaaatcgactgggatctggccctgatccagaaatataactat 60
            ||||||||||||| ||||||||| ||||||||||||||||||||||||||||||||||||
Sbjct: 2199 gtgagcatgtctgaacagcaaatagactgggatctggccctgatccagaaatataactat 2258

                                                                        
Query: 61   tccgggccacgatacacctcgtacccgaccgcgctggagttttcagaagacttcggcgaa 120
            |||||||||||||| ||||||||||| ||||||||||||||||| ||||||||||  || 
Sbjct: 2259 tccgggccacgatatacctcgtacccaaccgcgctggagttttctgaagacttcgaggac 2318

                                                                        
Query: 121  caggcgtttttacaagccgtggcgcgctatcctgagcgtccattatctctctacgtacat 180
               || || || || || |||||||| |||||||| |||||  | || || || || |||
Sbjct: 2319 gccgcattcttgcaggctgtggcgcgttatcctgaacgtccgctctcgctgtatgtgcat 2378

                                                                        
Query: 181  atcccgttctgccataagctttgttacttctgcggttgcaataagattgttactcgccag 240
            |||||||| || || ||| | ||||| |||||||| ||||| |||||||| || ||||| 
Sbjct: 2379 atcccgttttgtcacaagttgtgttatttctgcggctgcaacaagattgtcacccgccaa 2438

                                                                        
Query: 241  cagcacaaggccgatcagtatctggacgcgctggagcaagaaat-cgtccatcgtgcacc 299
            ||||| || || || |||||||| |||||||| ||||| ||||| |||| |||| || ||
Sbjct: 2439 cagcataaagctgaccagtatcttgacgcgcttgagcaggaaattcgtc-atcgcgcgcc 2497

                                                                        
Query: 300  gctgttcgccgggcgtcacgtcagccaattgcactggggcggcggaacgccgacgtatct 359
            |||||| || |  ||||| ||||||||  | |||||||||||||| ||||| || || ||
Sbjct: 2498 gctgtttgcagaccgtcatgtcagccagcttcactggggcggcggtacgcctacttacct 2557

                                                                        
Query: 360  gaataaagcgcaaatcagccgcctgatgaagctgctgcgcgaaaacttccagttcaatgc 419
            |||||||||||||||||||||| | |||| |||| |||| ||||| ||||| || ||| |
Sbjct: 2558 gaataaagcgcaaatcagccgcttaatgacgctgttgcgtgaaaatttccactttaatac 2617

                                                                        
Query: 420  cgatgcggagatttcgatcgaagtcgatccgcgggaaatcgaactggatgtactcgatca 479
            ||| ||||| || ||||||||||||||||| || ||||| || |||||||| ||||||||
Sbjct: 2618 cgacgcggaaatctcgatcgaagtcgatccccgtgaaattgagctggatgtgctcgatca 2677

                                                                        
Query: 480  tttacgcgccgaaggctttaatcgcctgagcatgggcgtgcaggacttcaacaaagaagt 539
            |||||| || ||||| ||||| |||||||| ||||||||||||||||| || ||||| ||
Sbjct: 2678 tttacgtgcggaaggttttaaccgcctgagtatgggcgtgcaggactttaataaagaggt 2737

                                                                        
Query: 540  gcaacgtctggttaaccgcgagcaggatgaagagttcatctttgcactgcttaaccatgc 599
            ||| || |||||||||||||||||||||||||| ||||||||||| |||||||| || ||
Sbjct: 2738 gcagcgcctggttaaccgcgagcaggatgaagaattcatctttgcgctgcttaatcacgc 2797

                                                                        
Query: 600  gcgtgagattggttttacctccaccaacatcgacctgatttacggcctgccgaaacagac 659
             || || || || |||||||| ||||| |||||  |||| ||||| || |||||||||||
Sbjct: 2798 ccgcgatatcggctttacctcgaccaatatcgatttgatctacggtctaccgaaacagac 2857

                                                                        
Query: 660  gccggagagtttcgcctttaccctgaaacgtgtggcggasstgaaccccgatcgtctgag 719
            ||| || || ||||| || || ||||| |||||| ||||  |||||||||||||| ||||
Sbjct: 2858 gccagaaagcttcgctttcacgctgaagcgtgtgacggaactgaaccccgatcgtttgag 2917

                                                                        
Query: 720  tgtctttaactacgcgcatctgccgaccatttttgctgctcagcgcaaaatcaaagatgc 779
             ||||||||||| ||||||||||| ||  ||||||| || ||||| ||||| ||||||||
Sbjct: 2918 cgtctttaactatgcgcatctgccaacgctttttgccgcccagcgtaaaattaaagatgc 2977

                                                                        
Query: 780  tgacctgccgagtccgcagcaaaaactcgatatcctgcaggaaaccatcgccttcctgac 839
            |||  | || ||  ||||||| ||||| |||||  ||||||| || ||||  |  || ||
Sbjct: 2978 tgatttacccagcgcgcagcagaaactggatattttgcaggagacgatcgtatcgcttac 3037

                                                                        
Query: 840  gcaatcgggctatcagtttatcggtatggatcactttgcccgtccggatgacgagctggc 899
             ||  | || |||||||||||||| ||||| || |||||||||||||| ||||| |||||
Sbjct: 3038 ccaggctggttatcagtttatcgggatggaccattttgcccgtccggacgacgaactggc 3097

                                                                        
Query: 900  ggtggcccagcgtgaaggcgtgctgcatcgtaacttccagggctacaccactcagggcga 959
             || || ||||| ||||||||| |||| ||||| || |||||||| || || ||||||||
Sbjct: 3098 cgtcgcgcagcgcgaaggcgtgttgcaccgtaattttcagggctatacgacccagggcga 3157

                                                                        
Query: 960  taccgatctgctggggatgggcgtttccgccatcagcatgattggcgactgctacgcgca 1019
            ||||||||||||||||||||| ||||| || |||||||||||||||||  |||||  |||
Sbjct: 3158 taccgatctgctggggatgggggtttctgctatcagcatgattggcgatggctacatgca 3217

                                                                        
Query: 1020 gaaccagaaagagttgaagcagtactatcagcaagtggatgaacaaggcaatgcgctgtg 1079
            ||||||||||||| ||||||  || || |||||||||||||| |  ||||||||||| ||
Sbjct: 3218 gaaccagaaagagctgaagcgttattaccagcaagtggatgagcggggcaatgcgctatg 3277

                                                                        
Query: 1080 gcgtggtattgcgctaacgcgtgatgactgtattcgccgcgatgtgattaagtcgctcat 1139
            |||||||||| |||| || |||||||| || ||||| |||||||| || ||| |||| ||
Sbjct: 3278 gcgtggtattacgctgacccgtgatgattgcattcgtcgcgatgttatcaaggcgctgat 3337

                                                                        
Query: 1140 ctgcaacttccgtctggattacgcccctattgagaaacagtgggatttgcacttcgctga 1199
             || |||||||| |||||||    | || | ||  | ||||||| |||||| ||||||||
Sbjct: 3338 ttgtaacttccgcctggattttaacgctgtcgaacagcagtggggtttgcatttcgctga 3397

                                                                        
Query: 1200 ttactttgcggaagatctcaagctgctcgccccgttagcaaaagatgggctggtggatgt 1259
             || ||||| |||||| |  || | ||  | ||| | || |||||||||||||||||| |
Sbjct: 3398 gtattttgccgaagatttgcagttactgtcgccgctggcgaaagatgggctggtggatat 3457

                                                                        
Query: 1260 ggatgagaagggaatacaggtgacggcgaaaggtcgcttgctgatccgcaacatttgcat 1319
                ||||||||||| |||||||||||||||||||| |||||||||||||| || |||||
Sbjct: 3458 tagcgagaagggaattcaggtgacggcgaaaggtcgtttgctgatccgcaatatctgcat 3517

                                                            
Query: 1320 gtgctttgatacctatctgcgccagaaagcgcggatgcagcagttctc 1367
            |||||||||  | |||||||||||||||||||||||||||||||||||
Sbjct: 3518 gtgctttgacgcgtatctgcgccagaaagcgcggatgcagcagttctc 3565
Аннотация соответсвуюзего фрагмента генома Salmonella typhimurium в EMBL: (извлечена из срс)
cds 	 2205..3578 	
codon_start 	1
transl_table 	11
gene 	hemN
product 	O2-independent coproporphyrinogen III oxidase
EC_number 	1.-.-.-
note 	oxygen-independent coproporphyrinogen III oxidase. (SW:HEMN_SALTY)
db_xref 	GOA:P0A1E1
db_xref 	InterPro:IPR004558
db_xref 	InterPro:IPR006638
db_xref 	InterPro:IPR007197
db_xref 	InterPro:IPR010723
db_xref 	UniProtKB/Swiss-Prot:P0A1E1
protein_id 	AAL22843.1
translation: MSEQQIDWDLALIQKYNYSGPRYTSYPTALEFSEDFEDAAFLQAVARYPERPLSLYVHIP
FCHKLCYFCGCNKIVTRQQHKADQYLDALEQEIRHRAPLFADRHVSQLHWGGGTPTYLNK
AQISRLMTLLRENFHFNTDAEISIEVDPREIELDVLDHLRAEGFNRLSMGVQDFNKEVQR
LVNREQDEEFIFALLNHARDIGFTSTNIDLIYGLPKQTPESFAFTLKRVTELNPDRLSVF
NYAHLPTLFAAQRKIKDADLPSAQQKLDILQETIVSLTQAGYQFIGMDHFARPDDELAVA
QREGVLHRNFQGYTTQGDTDLLGMGVSAISMIGDGYMQNQKELKRYYQQVDERGNALWRG
ITLTRDDCIRRDVIKALICNFRLDFNAVEQQWGLHFAEYFAEDLQLLSPLAKDGLVDISE
KGIQVTAKGRLLIRNICMCFDAYLRQKARMQQFSRVI

выводы и заметки
Из описания видно, что наденный белок из Salmonella typhimurium - почти полностью идентичен рассмотриваемому мной белку. Такая находка не удивительна, ибо существует целое семейство капропорфириноген-оксидаз III, включающих в себя белки типа Hemn_Ecoli, и преведённая находка соответсвует белку HEMN_SALTY.
Причиной того, что при поиске BlastN-ом, была найдена только одна последовательность, видимо, является разница в алгоритмах программ BLASTN и TBLASTN. Первая работает только с нк-выми последовательностями, вторая же получает на вход белковую последовательность, и сравнивает её с белковыми последовательностями, полученными трансляцией предложенного банка сразу в 6 рамках. Это увеличивает как само количесвто проверяемых последовательностей, так и их возможное сходство с целевой по сравнению с нк-последовательностями, т.к. внешне разные последовательности нуклеотидов могут давай почти идентичные белковые последовательности из-за вырожденности генетического кода. В виду этого устройство TBLASTN делает её заметно более пригодной для поиска даже отдалённых гомологов, по сравнению с BLASTN.
Это так же подвтерждается и тем, что из 3 лучших находок, выданных TBLASTN, все три из которых соответсвуют белкам семейства капропорфириноген-оксидаз III (!), BLASTN нашёл лишь белок бактерии Salmonella typhimurium - самой близкой по таксономии к E.Coli из предложенных, а соответсвенно, видимо, наименне разашедшейся с кишечной палочкой как на белковом, так и ДНК-овом уровнях.
Таксономия:
Escherichia coli, K-12
Salmonella typhimurium
Xanthomonas campestris
Pasteurella multocida

© designed by Alex Makarov