На главную страницу третьего семестра
| Поиск гомологов FCTA_Ecoli | Геном Vibrio cholerae | Геном Pseudomonas aeruginosa | Геном Pasteurella multocida | Три генома одновременно | |
| Характеристика лучшей находки: | AE004428 | AE004792 | AE006167 | AE004792 | |
| E-value находки | 2,2 | 4e-42 | 3,6 | 7e-42 | |
| координаты выравнивания(-ий) в записи генома |
2182-2325 | 4588-5766 | 3023-3082 | 4588-5766 | |
| AC соответствующей записи EMBL | AE004428, AE003853 | AE004792 | AE006167, AE004439 | AE004792 | |
| Координаты CDS в записи EMBL (если они есть) | SRS выдает ссылку на полный геном, поиск в котором, мягко скажем, затруднителен. | SRS выдает ссылку на полный геном, поиск в котором, мягко скажем, затруднителен. | |||
| AC UniProt в записи EMBL (если есть) | См. выше | См. выше | |||
| Число находок с Е-value<0,01 |
0 | 5 | 0 | 5 | |
Итак, что мы можем увидеть из полученных результатов? Уровень сходства, показанный для геномов Vibrio cholerae и Pasteurella multocida, не позволяет говорить о какой-либо гомологии. Иначе дело обстоит с геномом Pseudomonas aeruginosa. Для него обнаружено целых 5 значимых выравниваний, причем первые 2 из них не принципиально различаются по уровню e-value (4e-42 и 8e-42), хотя и относятся к различным участкам генома. Не является ли это результатом дубликации одного гена?
Сравнивая e-value лучшей находки для генома Pseudomonas aeruginosa и 3 геномов одновременно в качестве баз данных, можно заметить, что во втором случае e-value выше. Это связано с увеличением длины базы данных без увеличения сходства ее с выравниваемой последовательностью. В самом деле, мы просто добавляем 2 больших участка, не порождающих значимых выравниваний.
Выравнивание 1
AE004792 Pseudomonas aeruginosa PAO1, section 353 of 529 of the complete genome. Expect=4e-42
Query: 4 PLQGIKVLDFTGVQSGPSCTQMLAWFGADVIKIERPGVGDVTRHQLRDIPDIDALYFTML 63
PL G+KV++ + +GP +++ A FGA+VIKIE P GD R + R + + +L++ +
Sbjct: 4588 PLAGLKVVELGTLIAGPFASRICAEFGAEVIKIESPDGGDPLR-KWRKLYEGTSLWWFVQ 4764
Query: 64 NSNKRSIELNTKTAEGKEVMEKLIREADILVENFHPGAIDHMGFTWEHIQEINPRLIFGS 123
NK+S+ LN K AEG+ ++++L+ +ADIL+ENF PG ++ +G W+ + +NPRL+
Sbjct: 4765 ARNKKSLTLNLKHAEGQAILKRLLGDADILIENFRPGVLEKLGLGWDVLHALNPRLVMVR 4944
Query: 124 IKGFDECSPYVNVKAYENVXXXXXXXXSTTGFWDGPPLVSAAALGDSNTGMHXXXXXXXX 183
+ GF + PY + + V TGF D PP+ + ++GDS +
Sbjct: 4945 LSGFGQTGPYKDQPGFGAVGESMGGLRYITGFEDRPPVRTGISIGDSIAALWGVIGALMA 5124
Query: 184 XXHRE-KTGRGQRVTMSMQDAVLNLCRVKLRDQQRLDKLGYLEEYPQYPNGTFGDAVPRX 242
HRE G GQ V +++ +A+ + + + D G++ E G +
Sbjct: 5125 LRHREVNGGEGQMVDVALYEAIFAMMESMVPE---FDVFGFIRE----RTGNIMPGITPS 5283
Query: 243 XXXXXXXXXXWILKCKGWETDPNAYIYFTIQEQNWENTCKAIGKPEWITDPAYSTAHARQ 302
+ G + + +AIG+ + +DP ++ R
Sbjct: 5284 SIHTSADGRHVQIGANG--------------DAIFRRFMQAIGRDDLASDPRLASNDGRD 5421
Query: 303 PHIFDIFAEIEKYTVTIDKHEAVAYLTQFDIPCAPVLSMKEISLDPSLRQSGSVVEVEQP 362
+++ I+++ + E +A L + ++P + + S +++ DP + P
Sbjct: 5422 ARRDELYGVIDRWVASQPLEEVLAVLARAEVPASRIYSAEDMFRDPQFLAREMFLSARLP 5601
Query: 363 LRGKYLTVGCPMKFSAFTPDIK--AAPLLGEHTAAVLQELGYSDDEIAAMKQNHAI 416
+ G K SA TP P LGEHT A+L ELGY + IAA+++ AI
Sbjct: 5602 DGKPFRMPGIVPKLSA-TPGSADWVGPELGEHTDALLAELGYDSEGIAALRREGAI 5766
Выравнивание 2
AE004482 Pseudomonas aeruginosa PAO1, section 43 of 529 of the complete genome. Expect=8e-42
Query: 1 MSTPLQGIKVLDFTGVQSGPSCTQMLAWFGADVIKIERPGVGDVTRHQ----LRDIPDID 56
M L I+VLD + V +GP Q+LA GA+VIKIERPG GD TR L+D D
Sbjct: 2726 MPGALSHIRVLDLSRVLAGPWAGQILADLGAEVIKIERPGSGDDTRAWGPPFLKDAEGND 2547
Query: 57 ---ALYFTMLNSNKRSIELNTKTAEGKEVMEKLIREADILVENFHPGAIDHMGFTWEHIQ 113
A Y+ N NK+S+ ++ EG+ ++ +L +ADIL+ENF G + G +E ++
Sbjct: 2546 TSEAAYYLSANRNKKSVTVDFTQPEGQRIVRELAAKADILLENFKVGGLKAYGLDYESLK 2367
Query: 114 EINPRLIFGSIKGFDECSPYVNVKAYENVXXXXXXXXSTTGFWDGP----PLVSAAALGD 169
++NP+LI+ SI GF + PY Y+ + S TG D P+ AL D
Sbjct: 2366 QVNPKLIYCSITGFGQSGPYAKRAGYDFMIQGLGGLMSLTGRADNEEGAGPVKVGVALTD 2187
Query: 170 SNTGMHXXXXXXXXXXHREKTGRGQRVTMSMQDAVLNLCRVKLRDQQRLDKLGYLEEYPQ 229
TG++ HR+ +G GQ + M++ D +V Q L+ L
Sbjct: 2186 ILTGLYSSTAVLAALAHRDVSGIGQHIDMALLDV-----QVACLANQTLNYL-----TTG 2037
Query: 230 YPNGTFGDAVPRXXXXXXXXXXXWILKCKGWETDPNAYIYFTIQEQNWENTCKAIGKPEW 289
P G+A P I+ + + T I + + + PEW
Sbjct: 2036 VPPRRLGNAHPN------------IVPYQDFPTADGDMILTVGNDSQFRKFAELADHPEW 1893
Query: 290 ITDPAYSTAHARQPHIFDIFAEIEKYTVTIDKHEAVAYLTQFDIPCAPVLSMKEISLDPS 349
DP ++T AR + + I + TV E + L + +PC P+ + ++ DP
Sbjct: 1892 ADDPRFATNKARVANREVLIPLIRQATVLHTTAEWILSLERAGVPCGPINDLAQVFADPQ 1713
Query: 350 LRQSGSVVEVEQPLRGKYLTVGCPMKFSAFTPDIK-AAPLLGEHTAAVLQEL 400
++ G VE+ PL G V P++ S + + P LG+HT VL+ L
Sbjct: 1712 VQARGLRVELPHPLAGTVPQVASPIRLSETPVEYRNPPPTLGQHTDEVLETL 1557
Сравним эти выравнивания с выравниваниями лучших находок из других геномов.
AE006167 Pasteurella multocida subsp. multocida str. Pm70 section 134 of 204 of the complete genome. Expect = 3.6
Query: 219 DKLGYLEEYPQYPNGTFGDA 238
+K G LEEY YPNG +A
Sbjct: 3023 EKFGPLEEYVPYPNGRIPNA 3082
AE004428 Vibrio cholerae O1 biovar eltor str. N16961 chromosome II, section 85 of 93 of the complete chromosome Expect = 2.2
Разница очевидна. Происхождение последних выравниваний можно с чистой совестью объяснить случайными причинами. В то же время выравнивания из генома Pseudomonas aeruginosa несомненно имеют биологический смысл.Query: 349 SLRQSGSVVEVEQPLRGKYLTVGCPMKFSAFTPDIKAAPLLGEHTAAV 396 SL + S+++ EQP G+ + GC +K + P + A G A + Sbjct: 2182 SLEEMLSLIQREQPFAGELESAGCFIKIEDYLPVVCTAIHAGSRYAKI 2325
Проведен поиск гомолога гена frc из генома Escherichia coli W3110 в базе данных из тех же 3 геномов. Всего обнаружено 17 находок, из которых ни одна не имеет e-value ниже 0,01. Лучшей находкой (Expect = 0,20) оказалась следующая:
AE006208 Pasteurella multocida subsp. multocida str. Pm70 section 175 of 204 of the complete genome.Выравнивание
Заметно, что, хотя фрагменты стопроцентно совпадают, их длина слишком мала, чтобы иметь в озможность делать выводы о гомологии. Малая длина и является причиной сравнительно высокого e-value. Любопытный результат, если учесть наличие значимых находок при работе с TBLASTN. Вероятно, последовательности действительно являются гомологичными, отсутствие же результатов для BLASTN вызвано избыточностью генетического кода, которую эта программа совершенно не учитывает. При трансляции, естественно, эта проблема снимается, поэтому поиск с помощью TBLASTN оказывается более эффективен.Query: 310 tttttcgatttcagcaaa 327 |||||||||||||||||| Sbjct: 7506 tttttcgatttcagcaaa 7489