На главную страницу третьего семестра
Поиск гомологов FCTA_Ecoli | Геном Vibrio cholerae | Геном Pseudomonas aeruginosa | Геном Pasteurella multocida | Три генома одновременно | |
Характеристика лучшей находки: | AE004428 | AE004792 | AE006167 | AE004792 | |
E-value находки | 2,2 | 4e-42 | 3,6 | 7e-42 | |
координаты выравнивания(-ий) в записи генома |
2182-2325 | 4588-5766 | 3023-3082 | 4588-5766 | |
AC соответствующей записи EMBL | AE004428, AE003853 | AE004792 | AE006167, AE004439 | AE004792 | |
Координаты CDS в записи EMBL (если они есть) | SRS выдает ссылку на полный геном, поиск в котором, мягко скажем, затруднителен. | SRS выдает ссылку на полный геном, поиск в котором, мягко скажем, затруднителен. | |||
AC UniProt в записи EMBL (если есть) | См. выше | См. выше | |||
Число находок с Е-value<0,01 |
0 | 5 | 0 | 5 |
Итак, что мы можем увидеть из полученных результатов? Уровень сходства, показанный для геномов Vibrio cholerae и Pasteurella multocida, не позволяет говорить о какой-либо гомологии. Иначе дело обстоит с геномом Pseudomonas aeruginosa. Для него обнаружено целых 5 значимых выравниваний, причем первые 2 из них не принципиально различаются по уровню e-value (4e-42 и 8e-42), хотя и относятся к различным участкам генома. Не является ли это результатом дубликации одного гена?
Сравнивая e-value лучшей находки для генома Pseudomonas aeruginosa и 3 геномов одновременно в качестве баз данных, можно заметить, что во втором случае e-value выше. Это связано с увеличением длины базы данных без увеличения сходства ее с выравниваемой последовательностью. В самом деле, мы просто добавляем 2 больших участка, не порождающих значимых выравниваний.
Выравнивание 1AE004792 Pseudomonas aeruginosa PAO1, section 353 of 529 of the complete genome. Expect=4e-42 Query: 4 PLQGIKVLDFTGVQSGPSCTQMLAWFGADVIKIERPGVGDVTRHQLRDIPDIDALYFTML 63 PL G+KV++ + +GP +++ A FGA+VIKIE P GD R + R + + +L++ + Sbjct: 4588 PLAGLKVVELGTLIAGPFASRICAEFGAEVIKIESPDGGDPLR-KWRKLYEGTSLWWFVQ 4764 Query: 64 NSNKRSIELNTKTAEGKEVMEKLIREADILVENFHPGAIDHMGFTWEHIQEINPRLIFGS 123 NK+S+ LN K AEG+ ++++L+ +ADIL+ENF PG ++ +G W+ + +NPRL+ Sbjct: 4765 ARNKKSLTLNLKHAEGQAILKRLLGDADILIENFRPGVLEKLGLGWDVLHALNPRLVMVR 4944 Query: 124 IKGFDECSPYVNVKAYENVXXXXXXXXSTTGFWDGPPLVSAAALGDSNTGMHXXXXXXXX 183 + GF + PY + + V TGF D PP+ + ++GDS + Sbjct: 4945 LSGFGQTGPYKDQPGFGAVGESMGGLRYITGFEDRPPVRTGISIGDSIAALWGVIGALMA 5124 Query: 184 XXHRE-KTGRGQRVTMSMQDAVLNLCRVKLRDQQRLDKLGYLEEYPQYPNGTFGDAVPRX 242 HRE G GQ V +++ +A+ + + + D G++ E G + Sbjct: 5125 LRHREVNGGEGQMVDVALYEAIFAMMESMVPE---FDVFGFIRE----RTGNIMPGITPS 5283 Query: 243 XXXXXXXXXXWILKCKGWETDPNAYIYFTIQEQNWENTCKAIGKPEWITDPAYSTAHARQ 302 + G + + +AIG+ + +DP ++ R Sbjct: 5284 SIHTSADGRHVQIGANG--------------DAIFRRFMQAIGRDDLASDPRLASNDGRD 5421 Query: 303 PHIFDIFAEIEKYTVTIDKHEAVAYLTQFDIPCAPVLSMKEISLDPSLRQSGSVVEVEQP 362 +++ I+++ + E +A L + ++P + + S +++ DP + P Sbjct: 5422 ARRDELYGVIDRWVASQPLEEVLAVLARAEVPASRIYSAEDMFRDPQFLAREMFLSARLP 5601 Query: 363 LRGKYLTVGCPMKFSAFTPDIK--AAPLLGEHTAAVLQELGYSDDEIAAMKQNHAI 416 + G K SA TP P LGEHT A+L ELGY + IAA+++ AI Sbjct: 5602 DGKPFRMPGIVPKLSA-TPGSADWVGPELGEHTDALLAELGYDSEGIAALRREGAI 5766Выравнивание 2
AE004482 Pseudomonas aeruginosa PAO1, section 43 of 529 of the complete genome. Expect=8e-42 Query: 1 MSTPLQGIKVLDFTGVQSGPSCTQMLAWFGADVIKIERPGVGDVTRHQ----LRDIPDID 56 M L I+VLD + V +GP Q+LA GA+VIKIERPG GD TR L+D D Sbjct: 2726 MPGALSHIRVLDLSRVLAGPWAGQILADLGAEVIKIERPGSGDDTRAWGPPFLKDAEGND 2547 Query: 57 ---ALYFTMLNSNKRSIELNTKTAEGKEVMEKLIREADILVENFHPGAIDHMGFTWEHIQ 113 A Y+ N NK+S+ ++ EG+ ++ +L +ADIL+ENF G + G +E ++ Sbjct: 2546 TSEAAYYLSANRNKKSVTVDFTQPEGQRIVRELAAKADILLENFKVGGLKAYGLDYESLK 2367 Query: 114 EINPRLIFGSIKGFDECSPYVNVKAYENVXXXXXXXXSTTGFWDGP----PLVSAAALGD 169 ++NP+LI+ SI GF + PY Y+ + S TG D P+ AL D Sbjct: 2366 QVNPKLIYCSITGFGQSGPYAKRAGYDFMIQGLGGLMSLTGRADNEEGAGPVKVGVALTD 2187 Query: 170 SNTGMHXXXXXXXXXXHREKTGRGQRVTMSMQDAVLNLCRVKLRDQQRLDKLGYLEEYPQ 229 TG++ HR+ +G GQ + M++ D +V Q L+ L Sbjct: 2186 ILTGLYSSTAVLAALAHRDVSGIGQHIDMALLDV-----QVACLANQTLNYL-----TTG 2037 Query: 230 YPNGTFGDAVPRXXXXXXXXXXXWILKCKGWETDPNAYIYFTIQEQNWENTCKAIGKPEW 289 P G+A P I+ + + T I + + + PEW Sbjct: 2036 VPPRRLGNAHPN------------IVPYQDFPTADGDMILTVGNDSQFRKFAELADHPEW 1893 Query: 290 ITDPAYSTAHARQPHIFDIFAEIEKYTVTIDKHEAVAYLTQFDIPCAPVLSMKEISLDPS 349 DP ++T AR + + I + TV E + L + +PC P+ + ++ DP Sbjct: 1892 ADDPRFATNKARVANREVLIPLIRQATVLHTTAEWILSLERAGVPCGPINDLAQVFADPQ 1713 Query: 350 LRQSGSVVEVEQPLRGKYLTVGCPMKFSAFTPDIK-AAPLLGEHTAAVLQEL 400 ++ G VE+ PL G V P++ S + + P LG+HT VL+ L Sbjct: 1712 VQARGLRVELPHPLAGTVPQVASPIRLSETPVEYRNPPPTLGQHTDEVLETL 1557Сравним эти выравнивания с выравниваниями лучших находок из других геномов. AE006167 Pasteurella multocida subsp. multocida str. Pm70 section 134 of 204 of the complete genome. Expect = 3.6
Query: 219 DKLGYLEEYPQYPNGTFGDA 238 +K G LEEY YPNG +A Sbjct: 3023 EKFGPLEEYVPYPNGRIPNA 3082AE004428 Vibrio cholerae O1 biovar eltor str. N16961 chromosome II, section 85 of 93 of the complete chromosome Expect = 2.2
Разница очевидна. Происхождение последних выравниваний можно с чистой совестью объяснить случайными причинами. В то же время выравнивания из генома Pseudomonas aeruginosa несомненно имеют биологический смысл.Query: 349 SLRQSGSVVEVEQPLRGKYLTVGCPMKFSAFTPDIKAAPLLGEHTAAV 396 SL + S+++ EQP G+ + GC +K + P + A G A + Sbjct: 2182 SLEEMLSLIQREQPFAGELESAGCFIKIEDYLPVVCTAIHAGSRYAKI 2325
Проведен поиск гомолога гена frc из генома Escherichia coli W3110 в базе данных из тех же 3 геномов. Всего обнаружено 17 находок, из которых ни одна не имеет e-value ниже 0,01. Лучшей находкой (Expect = 0,20) оказалась следующая:
AE006208 Pasteurella multocida subsp. multocida str. Pm70 section 175 of 204 of the complete genome.Выравнивание
Заметно, что, хотя фрагменты стопроцентно совпадают, их длина слишком мала, чтобы иметь в озможность делать выводы о гомологии. Малая длина и является причиной сравнительно высокого e-value. Любопытный результат, если учесть наличие значимых находок при работе с TBLASTN. Вероятно, последовательности действительно являются гомологичными, отсутствие же результатов для BLASTN вызвано избыточностью генетического кода, которую эта программа совершенно не учитывает. При трансляции, естественно, эта проблема снимается, поэтому поиск с помощью TBLASTN оказывается более эффективен.Query: 310 tttttcgatttcagcaaa 327 |||||||||||||||||| Sbjct: 7506 tttttcgatttcagcaaa 7489