Главная

Назад

Поиск в геноме участков, кодирующих белки, похожие на заданный

Будет осуществляться поиск белка PSTS_ECOLI в геноме бактерии Xanthomonas campestris, возбудитель черной гнили капусты.

Создаем индексные файлы пакета BLAST для поиска по соответствующему геному: xc.nhr, xc.nin, xc.nsq

Следующей командой запускаем поиск:

blastall -p tblastn -d xc -i psts_ecoli.fasta -e 0.001 -o tblastn.out

Выбрана программа tblastn, которая ищет гомологов белка в неаннотированных нуклеотидных последовательностях. На вход этой программе подается аминокислотная последовательность белка psts_ecoli.fasta.
E-value выбрано 0.001
База данных в данном случае геном бактерии Xanthomonas campestris(xc)
Результаты поиска в файле tblastn.out

Лучший результат


Score =  352 bits (903), Expect = 4e-98,   Method: Compositional matrix adjust.
 Identities = 172/307 (56%), Positives = 220/307 (71%), Gaps = 2/307 (0%)
 Frame = -2

Query: 29   LTGAGATFPAPVYAKWADTYQKETGNKVNYQGIGSSGGVKQIIANTVDFGASDAPLSDEK 88
            +TGAGA+F  PV +KW+  Y   T  +VNYQ IGS GG+ QI A +VDFG+SDAPL  E+
Sbjct: 2297 VTGAGASFIYPVMSKWSADYNTATKKQVNYQSIGSGGGIAQIKAASVDFGSSDAPLKPEE 2118

Query: 89   LAQEGLFQFPTVIGGVVLAVNIPGLKSGELVLDGKTLGDIYLGKIKKWDDEAIAKLNPGL 148
            LA  GL QFP+VIGGVV  +N+PG+ +G + LDGKTLGDI+LGK+  W+D AI  LNPG+
Sbjct: 2117 LAAAGLAQFPSVIGGVVPVINVPGIAAGAVKLDGKTLGDIFLGKVTTWNDAAIVALNPGV 1938

Query: 149  KLPSQNIAVVRRADGSGTSFVFTSYLAKVNEEWKNNVGTGSTVKWPIGLGGKGNDGIAAF 208
            KLP   I VV R+DGSGTSF FT+YL+KVN +WK+ VG G+ V+WP G+GGKGN+G+AA+
Sbjct: 1937 KLPDSKITVVHRSDGSGTSFNFTNYLSKVNPDWKSKVGEGTAVQWPTGIGGKGNEGVAAY 1758

Query: 209  VQRLPGAIGYVEYAYAKQNNLAYTKLISADGKPVSPTEENFANAAKGADW--SKTFAQDL 266
            V+++ G IGYVE +YA QN +AYT + +A GK V P++E FA AA  ADW  SK F   +
Sbjct: 1757 VKQIKGGIGYVELSYALQNKMAYTAMKNAAGKFVQPSDETFAAAANSADWGSSKDFYLVM 1578

Query: 267  TNQKGEDAWPITSTTFILIHKDQKKPEQGTEVLKFFDWAYKTGAKQANDLDYASLPDSVV 326
            TN  G++AWPIT+T FIL+ K  K P      L+FF W Y  G  QA  LDY  LPD++V
Sbjct: 1577 TNAAGDNAWPITATNFILVQKKPKNPAGLKNTLEFFRWVYSKGDAQAKALDYVPLPDTLV 1398

Query: 327  EQVRAAW 333
             Q+ A W
Sbjct: 1397 SQIEAYW 1377

Таблица с результатами

Поиск гомологов белка PSTS_ECOLI в геноме бактерии Xanthomonas campestris
Число находок с Е-value<0,001 2
Характеристика лучшей находки:  
   E-value находки 4e-98
Название геномной последовательности Xanthomonas campestris pv. campestris str. ATCC 33913, section 162 of 460 of the complete genome.
Координаты выравнивания(-ий) в найденной последовательности 1377-2297

Нахождение записи EMBL по последовательности с помощью программы BLASTN

На сайте EBI (http://www.ebi.ac.uk/Tools/) осуществили поиск AC полученной последовательности в банке "EMBL standard prokaryote". В результате получаем:

CP000050 - AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога белка PSTS_ECOLI
координаты этого гена согласно аннотации EMBL 1377-2297
участок FT, соответствующий этим координатам:

FT   gene            3252468..3253559
FT                   /locus_tag="XC_2707"
FT                   /note="XC2707"
FT   CDS             3252468..3253559
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /locus_tag="XC_2707"
FT                   /product="phosphate binding protein"
FT                   /db_xref="GOA:Q4UT67"
FT                   /db_xref="InterPro:IPR005673"
FT                   /db_xref="InterPro:IPR006059"
FT                   /db_xref="UniProtKB/TrEMBL:Q4UT67"
FT                   /protein_id="AAY49756.1"
FT                   /translation="MRRTPLPCNGVLRDVIPIATRSCSVISSIKSRLAVGVLAAALAMG
FT                   AQAADVTGAGASFIYPVMSKWSADYNTATKKQVNYQSIGSGGGIAQIKAASVDFGSSDA
FT                   PLKPEELAAAGLAQFPSVIGGVVPVINVPGIAAGAVKLDGKTLGDIFLGKVTTWNDAAI
FT                   VALNPGVKLPDSKITVVHRSDGSGTSFNFTNYLSKVNPDWKSKVGEGTAVQWPTGIGGK
FT                   GNEGVAAYVKQIKGGIGYVELSYALQNKMAYTAMKNAAGKFVQPSDETFAAAANSADWG
FT                   SSKDFYLVMTNAAGDNAWPITATNFILVQKKPKNPAGLKNTLEFFRWVYSKGDAQAKAL
FT                   DYVPLPDTLVSQIEAYWAKTLPR"
Этот участок соответствует гену XC_2707, результатом экспрессии которого является фосфат-связывающий белок
Он является частью аннотированной кодирующей последовательности (CDS) с координатами 3252468..3253559, лежит на прямой цепи
CDS соответствует Q4UT67 записи банка UniProt.

Поиск гомологов с помощью программы BLASTN

Создан файл с последовательностью из генома E.coli, кодирующей белок PSTS_ECOLI: cds.fasta
Пользуемся командой
blastall -p blastn -d xc -i cds.fasta -e 0.1 -o blastn

в результате получаем список гомологов нуклеотидной последовательности белка PSTS_ECOLI по нуклеотидной последовательности генома бактерии Xanthomonas campestris :
Лучший результат:

 Score = 38.2 bits (19), Expect = 0.017
 Identities = 22/23 (95%)
 Strand = Plus / Minus


Query: 373 ctcggcgacatctacctgggcaa 395
           ||||||||||||| |||||||||
Sbjct: 737 ctcggcgacatcttcctgggcaa 715
По результатам поиска была заполнена таблица
Число находок с Е-value<0,1 3
Характеристика лучшей находки:  
   E-value находки 0.017
Название геномной последовательности Xanthomonas campestris pv. campestris str. ATCC 33913, section 415 of 460 of the complete genome
Координаты выравнивания(-ий) в найденной последовательности 715-737

Поиск с помощью blastn вообще, на мой взгляд, не нашел гомологов, потому что E-value лучшего результата достаточно высокий, по сравнению с тем результатом, который выдал tblastn. Следует искать по аминокислотной последовательности.







© Ксения Лежнина 2008