|
Создание индексных файлов для программ пакета BLAST
|
Для поиска гомологов с помощью пакета программ Blast в каком либо геноме для начала, надо в определённой форме проиндексировать этот геном. Тип индексирования зависит от формата данных, в котором находится информация о геноме.
Информация о геноме - в моём случае о полном геноме возбудителя чёрной гнили капусты Xanthomonas campestris - была дана в виде аннотированной нуклеотидной последовательности в файле xc_genome.fasta
Индексирование производилось командой formatdb -p F -t XC -i xc_genome.fasta.
|
Поиск в геноме Xanthomonas campestris участков, кодирующих белки, похожие на HEMN_ECOLI
|
Поиск проводился с помощью пакета программ Blast. В нашем случае, так как информация о моём белке дана в виде аминокислотной
последовательности, а геном, в котором искались его гомологи - как уже сказано выше - в виде нуклеотиной последовательности,
то использовалась программа TBLASTN.
Соответсвующая команда: blastall -p tblastn -i hemn_ecoli.fasta -d xc -e 0.001 -o hemn_xc.blast
Соответсвующие результаты см. в таблице ниже
Поиск гомологов HEMN_ECOLI |
Геном Xanthomonas
campestris |
Число находок с Е-value<0,001 |
2 |
Характеристика лучшей находки(*): |
|
|
E-value находки |
e-108 |
|
AC соответствующей записи EMBL |
AE012315 |
|
координаты выравнивания(-ий) в записи EMBL |
complement(5613..6986) |
|
Координаты CDS в записи EMBL (если они есть) |
complement(5610..7022) |
|
AC UniProt в записи EMBL (если есть) |
Q8P8Y7 |
При поиске по 3
геномам: Xanthomonas campestris,
Salmonella typhimurium, Pasteurella multocida |
|
E-value находки (*) |
e-108 |
|
Общее число находок |
6 |
Характеристики лучшей находки в геноме Xanthomonas campestris:
|
>AE012315 AE008922 |AE012315| Xanthomonas campestris pv. campestris
str. ATCC 33913, section 223 of 460 of the complete
genome.
Length = 11231
Score = 387 bits (995), Expect = e-108
Identities = 205/458 (44%), Positives = 287/458 (62%), Gaps = 7/458 (1%)
Frame = -1
|
При сопоставлении координат выравнивания с CDS в находке, выясняется, что найденный кусок принадлежит
белку из семейства капропорфириноген-оксидаз III, к которому принадлежит и мой белок. Однако назвать эту находку полностью удовлетворительной
весьма сложно, ибо процент чистых совпадений(identities) и "близких" совпадений (positives) очень не высок, и координаты
выравнивания далеко не охватывают всего CDS.
|
Аналогичный поиск сразу в нескольких геномах
|
В моём случае при попытке поиска гомологов в геномах сразу трёх различных организмов:
Xanthomonas campestris, Salmonella typhimurium, Pasteurella multocida;
не привела к изменению ожидания лучшей находки при предыдущем поиске, видимо потому, что две
найденные находки с лучшим ожиданием были абсолютно идентичны Hemn_Ecoli.
В общем же случае ожидание должно было бы возрасти, ибо, при увеличении размера базы данных,
увеличивается и вероятность найти выравнивание лучше уже имеющегося. Формально по формуле
получается то же самое: E=Kmn(e^-λS), n больше => E больше.
Три лучших находки при посике в трёх геномах:
>AE008887 AE006468 |AE008887| Salmonella typhimurium LT2, section 191
of 220 of the complete genome.
Length = 25806
Score = 863 bits (2230), Expect = 0.0
Identities = 423/457 (92%), Positives = 437/457 (95%)
Frame = +3
>embl|AE006221|AE006221 Pasteurella multocida subsp. multocida str.
Pm70 section 188 of 204 of the complete genome.
Length = 10429
Score = 664 bits (1713), Expect = 0.0
Identities = 315/455 (69%), Positives = 380/455 (83%)
Frame = -1
>AE012315 AE008922 |AE012315| Xanthomonas campestris pv. campestris
str. ATCC 33913, section 223 of 460 of the complete
genome.
Length = 11231
Score = 387 bits (995), Expect = e-108
Identities = 205/458 (44%), Positives = 287/458 (62%), Gaps = 7/458 (1%)
Frame = -1
|
Поиск гомологов с помощью программы BLASTN
|
Поиск гомологов гена через BLASTN |
3
генома |
Число находок с Е-value<0,001 |
1 |
Характеристика лучшей находки: |
|
|
E-value находки |
0.0 |
|
AC соответствующей записи EMBL |
AE008887 |
Выравнивание лучшей находки:
>AE008887 AE006468 |AE008887| Salmonella typhimurium LT2, section 191
of 220 of the complete genome.
Length = 25806
Score = 901 bits (454), Expect = 0.0
Identities = 1141/1368 (83%), Gaps = 2/1368 (0%)
Strand = Plus / Plus
Query: 1 gtgagcatgtctgtacagcaaatcgactgggatctggccctgatccagaaatataactat 60
||||||||||||| ||||||||| ||||||||||||||||||||||||||||||||||||
Sbjct: 2199 gtgagcatgtctgaacagcaaatagactgggatctggccctgatccagaaatataactat 2258
Query: 61 tccgggccacgatacacctcgtacccgaccgcgctggagttttcagaagacttcggcgaa 120
|||||||||||||| ||||||||||| ||||||||||||||||| |||||||||| ||
Sbjct: 2259 tccgggccacgatatacctcgtacccaaccgcgctggagttttctgaagacttcgaggac 2318
Query: 121 caggcgtttttacaagccgtggcgcgctatcctgagcgtccattatctctctacgtacat 180
|| || || || || |||||||| |||||||| ||||| | || || || || |||
Sbjct: 2319 gccgcattcttgcaggctgtggcgcgttatcctgaacgtccgctctcgctgtatgtgcat 2378
Query: 181 atcccgttctgccataagctttgttacttctgcggttgcaataagattgttactcgccag 240
|||||||| || || ||| | ||||| |||||||| ||||| |||||||| || |||||
Sbjct: 2379 atcccgttttgtcacaagttgtgttatttctgcggctgcaacaagattgtcacccgccaa 2438
Query: 241 cagcacaaggccgatcagtatctggacgcgctggagcaagaaat-cgtccatcgtgcacc 299
||||| || || || |||||||| |||||||| ||||| ||||| |||| |||| || ||
Sbjct: 2439 cagcataaagctgaccagtatcttgacgcgcttgagcaggaaattcgtc-atcgcgcgcc 2497
Query: 300 gctgttcgccgggcgtcacgtcagccaattgcactggggcggcggaacgccgacgtatct 359
|||||| || | ||||| |||||||| | |||||||||||||| ||||| || || ||
Sbjct: 2498 gctgtttgcagaccgtcatgtcagccagcttcactggggcggcggtacgcctacttacct 2557
Query: 360 gaataaagcgcaaatcagccgcctgatgaagctgctgcgcgaaaacttccagttcaatgc 419
|||||||||||||||||||||| | |||| |||| |||| ||||| ||||| || ||| |
Sbjct: 2558 gaataaagcgcaaatcagccgcttaatgacgctgttgcgtgaaaatttccactttaatac 2617
Query: 420 cgatgcggagatttcgatcgaagtcgatccgcgggaaatcgaactggatgtactcgatca 479
||| ||||| || ||||||||||||||||| || ||||| || |||||||| ||||||||
Sbjct: 2618 cgacgcggaaatctcgatcgaagtcgatccccgtgaaattgagctggatgtgctcgatca 2677
Query: 480 tttacgcgccgaaggctttaatcgcctgagcatgggcgtgcaggacttcaacaaagaagt 539
|||||| || ||||| ||||| |||||||| ||||||||||||||||| || ||||| ||
Sbjct: 2678 tttacgtgcggaaggttttaaccgcctgagtatgggcgtgcaggactttaataaagaggt 2737
Query: 540 gcaacgtctggttaaccgcgagcaggatgaagagttcatctttgcactgcttaaccatgc 599
||| || |||||||||||||||||||||||||| ||||||||||| |||||||| || ||
Sbjct: 2738 gcagcgcctggttaaccgcgagcaggatgaagaattcatctttgcgctgcttaatcacgc 2797
Query: 600 gcgtgagattggttttacctccaccaacatcgacctgatttacggcctgccgaaacagac 659
|| || || || |||||||| ||||| ||||| |||| ||||| || |||||||||||
Sbjct: 2798 ccgcgatatcggctttacctcgaccaatatcgatttgatctacggtctaccgaaacagac 2857
Query: 660 gccggagagtttcgcctttaccctgaaacgtgtggcggasstgaaccccgatcgtctgag 719
||| || || ||||| || || ||||| |||||| |||| |||||||||||||| ||||
Sbjct: 2858 gccagaaagcttcgctttcacgctgaagcgtgtgacggaactgaaccccgatcgtttgag 2917
Query: 720 tgtctttaactacgcgcatctgccgaccatttttgctgctcagcgcaaaatcaaagatgc 779
||||||||||| ||||||||||| || ||||||| || ||||| ||||| ||||||||
Sbjct: 2918 cgtctttaactatgcgcatctgccaacgctttttgccgcccagcgtaaaattaaagatgc 2977
Query: 780 tgacctgccgagtccgcagcaaaaactcgatatcctgcaggaaaccatcgccttcctgac 839
||| | || || ||||||| ||||| ||||| ||||||| || |||| | || ||
Sbjct: 2978 tgatttacccagcgcgcagcagaaactggatattttgcaggagacgatcgtatcgcttac 3037
Query: 840 gcaatcgggctatcagtttatcggtatggatcactttgcccgtccggatgacgagctggc 899
|| | || |||||||||||||| ||||| || |||||||||||||| ||||| |||||
Sbjct: 3038 ccaggctggttatcagtttatcgggatggaccattttgcccgtccggacgacgaactggc 3097
Query: 900 ggtggcccagcgtgaaggcgtgctgcatcgtaacttccagggctacaccactcagggcga 959
|| || ||||| ||||||||| |||| ||||| || |||||||| || || ||||||||
Sbjct: 3098 cgtcgcgcagcgcgaaggcgtgttgcaccgtaattttcagggctatacgacccagggcga 3157
Query: 960 taccgatctgctggggatgggcgtttccgccatcagcatgattggcgactgctacgcgca 1019
||||||||||||||||||||| ||||| || ||||||||||||||||| ||||| |||
Sbjct: 3158 taccgatctgctggggatgggggtttctgctatcagcatgattggcgatggctacatgca 3217
Query: 1020 gaaccagaaagagttgaagcagtactatcagcaagtggatgaacaaggcaatgcgctgtg 1079
||||||||||||| |||||| || || |||||||||||||| | ||||||||||| ||
Sbjct: 3218 gaaccagaaagagctgaagcgttattaccagcaagtggatgagcggggcaatgcgctatg 3277
Query: 1080 gcgtggtattgcgctaacgcgtgatgactgtattcgccgcgatgtgattaagtcgctcat 1139
|||||||||| |||| || |||||||| || ||||| |||||||| || ||| |||| ||
Sbjct: 3278 gcgtggtattacgctgacccgtgatgattgcattcgtcgcgatgttatcaaggcgctgat 3337
Query: 1140 ctgcaacttccgtctggattacgcccctattgagaaacagtgggatttgcacttcgctga 1199
|| |||||||| ||||||| | || | || | ||||||| |||||| ||||||||
Sbjct: 3338 ttgtaacttccgcctggattttaacgctgtcgaacagcagtggggtttgcatttcgctga 3397
Query: 1200 ttactttgcggaagatctcaagctgctcgccccgttagcaaaagatgggctggtggatgt 1259
|| ||||| |||||| | || | || | ||| | || |||||||||||||||||| |
Sbjct: 3398 gtattttgccgaagatttgcagttactgtcgccgctggcgaaagatgggctggtggatat 3457
Query: 1260 ggatgagaagggaatacaggtgacggcgaaaggtcgcttgctgatccgcaacatttgcat 1319
||||||||||| |||||||||||||||||||| |||||||||||||| || |||||
Sbjct: 3458 tagcgagaagggaattcaggtgacggcgaaaggtcgtttgctgatccgcaatatctgcat 3517
Query: 1320 gtgctttgatacctatctgcgccagaaagcgcggatgcagcagttctc 1367
||||||||| | |||||||||||||||||||||||||||||||||||
Sbjct: 3518 gtgctttgacgcgtatctgcgccagaaagcgcggatgcagcagttctc 3565
|
Аннотация соответсвуюзего фрагмента генома Salmonella typhimurium в EMBL: (извлечена из срс)
|
cds 2205..3578
codon_start 1
transl_table 11
gene hemN
product O2-independent coproporphyrinogen III oxidase
EC_number 1.-.-.-
note oxygen-independent coproporphyrinogen III oxidase. (SW:HEMN_SALTY)
db_xref GOA:P0A1E1
db_xref InterPro:IPR004558
db_xref InterPro:IPR006638
db_xref InterPro:IPR007197
db_xref InterPro:IPR010723
db_xref UniProtKB/Swiss-Prot:P0A1E1
protein_id AAL22843.1
translation: MSEQQIDWDLALIQKYNYSGPRYTSYPTALEFSEDFEDAAFLQAVARYPERPLSLYVHIP
FCHKLCYFCGCNKIVTRQQHKADQYLDALEQEIRHRAPLFADRHVSQLHWGGGTPTYLNK
AQISRLMTLLRENFHFNTDAEISIEVDPREIELDVLDHLRAEGFNRLSMGVQDFNKEVQR
LVNREQDEEFIFALLNHARDIGFTSTNIDLIYGLPKQTPESFAFTLKRVTELNPDRLSVF
NYAHLPTLFAAQRKIKDADLPSAQQKLDILQETIVSLTQAGYQFIGMDHFARPDDELAVA
QREGVLHRNFQGYTTQGDTDLLGMGVSAISMIGDGYMQNQKELKRYYQQVDERGNALWRG
ITLTRDDCIRRDVIKALICNFRLDFNAVEQQWGLHFAEYFAEDLQLLSPLAKDGLVDISE
KGIQVTAKGRLLIRNICMCFDAYLRQKARMQQFSRVI
|
|
выводы и заметки
|
Из описания видно, что наденный белок из Salmonella typhimurium - почти полностью идентичен
рассмотриваемому мной белку. Такая находка не удивительна, ибо существует целое семейство
капропорфириноген-оксидаз III, включающих в себя белки типа Hemn_Ecoli, и преведённая находка
соответсвует белку HEMN_SALTY.
Причиной того, что при поиске BlastN-ом, была найдена только одна последовательность, видимо, является разница в алгоритмах программ BLASTN и TBLASTN. Первая работает только с нк-выми последовательностями, вторая же получает на вход белковую последовательность, и сравнивает её с белковыми последовательностями, полученными трансляцией предложенного банка сразу в 6 рамках. Это увеличивает как само количесвто проверяемых последовательностей, так и их возможное сходство с целевой по сравнению с нк-последовательностями, т.к. внешне разные последовательности нуклеотидов могут давай почти идентичные белковые последовательности из-за вырожденности генетического кода. В виду этого устройство TBLASTN делает её заметно более пригодной для поиска даже отдалённых гомологов, по сравнению с BLASTN.
Это так же подвтерждается и тем, что из 3 лучших находок, выданных TBLASTN, все три из которых соответсвуют белкам семейства капропорфириноген-оксидаз III (!), BLASTN нашёл лишь белок бактерии Salmonella typhimurium - самой близкой по таксономии к E.Coli из предложенных, а соответсвенно, видимо, наименне разашедшейся с кишечной палочкой как на белковом, так и ДНК-овом уровнях.
Таксономия: Escherichia coli, K-12
Salmonella typhimurium
Xanthomonas campestris
Pasteurella multocida
|
|