В рассматриваемой мною в шестом практикуме последовательности оказался фрагмент митохондриального гена I субъединицы цитохром с-оксидазы (COI):
Этот ген встречается среди представителей одного класса, Гастроподов. Ниже приведено фрагмент множественного выравнивания находок, относящихся к разным видам. Видно, что некоторые последовательности выравнены друг относительно друга очень хорошо (напрмер, Echinolittorina trochoides и Lacuna vincta) и можно предположить что они относятся к одному порядку - действительно, эти 2 вида относятся к порядку Littorinimorpha (класс Gastropoda). Обратим внимание на последовательности, которые выравнялись плохо - Peasiella patula и Belomitra gymnobela. Первый организм - представитель порядка Littorinimorphа, второй - Neogastropoda; класс общий, Gastropoda. Таким образом, данный ген общий для представителей одного класса, Гастроподов.
Поиск гомологов митохондриального гена I субъединицы цитохром с-оксидазы. Я ограничила поиск родом Hastula (taxid:57628).
BLAST | Измененные параметры (не по умолчанию) | Кол-во находок |
---|---|---|
megablast | 35 | все по умолчанию |
blastn с параметрами по умолчанию | 48 | все по умолчанию |
чувствительный blastn | 51 | Word size - 7; Match/Mismatch Scores - 1;-1 |
Видно, что blastn выдает больше находок, чем megablast. Выравнивание с одним из найденнных blastn генов, которых не оказалось в списке выдачи megablast, приведено ниже:
Длина слова для megablast равна по умолчанию 28. B данном выравнивании нет последовательности из, как минимум, 28 совпадающих нуклеотидов (подряд идущих), зато из 11 есть (длина слова для blastn с параметрами по умолчанию), поэтому этот ген в списке находок blastn есть, а megablasat - нет. Таким образом, megablast из-за высокого порога длины слова может пропустить достаточно много гомологичных последовательностей.
Кроме того, megablast не использует аффинные штрафы за гэпы (т е и за открытие гэпа, и за его продолжение вычитается штраф один и тот же), а в blastn по умолчанию открытие гэпа - минус 5, а за его продолжение - минус 2. Это так же подтверждает то, что megablast менее избирательный. В итоге сравнение megablast и blastn говорит о том, что megablast позволяет быстро найти в банке последовательности, максимально похожие на исходный ген, а blastn чувствителенее и нацелен на поиск гомологичных последлвательностей (это касается как blastn с параметрами по умолчанию так и без). Стоит еще упомянуть, что в список находок blastn, в отличие от megablast, вошли несколько коротких фрагментов целых генов (пример на скриншоте ниже), то есть megablast не учитывает небольшие фрагменты последовательностей, которые могут быть гомологичными участку исходного гена.
Сравнение blastn с разными параметрами показало,что выдача blastn с чувствительными парметрами включает в себя выдачу blastn с параметрами по умолчанию и помимо этого включает в себя больше находок с короткими выравниваниями.
В этом задании требуется найти гомологи белков по нуклеотидной базе данных, поэтому используется TBLASTN.
В геноме Amoeboaphelidium protococcarum есть 2 гена, кодирующих гомологичный искомому белок; параметры выравнивания для одного из них приведены ниже.
Scaffold | Score (bits) | E-value | Identities | Positives | Gaps |
---|---|---|---|---|---|
26 | 693 | 0.0 | 87% | 94% | 0 |
Query 43 QLERMNVYFNEASGNKYVPRAVLVDLEPGTMDAVRAGPFGQLFRPDNFVFGQSGAGNNWA 102 QL + VY+NEASG KYVPRAVLVDLEPGTMD+VRAGP+G LFRPDNF+FGQSGAGNNWA Sbjct 109811 QLYLIVVYYNEASGGKYVPRAVLVDLEPGTMDSVRAGPYGNLFRPDNFIFGQSGAGNNWA 109632 Query 103 KGHYTEGAELVDQVLDVVRREAEGCDCLQGFQITHSlgggtgagmgtllISKIREEFPDR 162 KGHYTEGAELVD VLDVVR+EAEGCDCLQGFQITHSLGGGTGAGMGTLLISKIREE+PDR Sbjct 109631 KGHYTEGAELVDSVLDVVRKEAEGCDCLQGFQITHSLGGGTGAGMGTLLISKIREEYPDR 109452 Query 163 MMATFSVVPSPKVSDTVVEPYNATLSVHQLVENSDETFCIDNEALYDICMRTLKLSNPSY 222 MM TFSVVPSPKVSDTVVEPYNATLSVHQLVENSDETFCIDNEALYDIC RTLKL+ P+Y Sbjct 109451 MMCTFSVVPSPKVSDTVVEPYNATLSVHQLVENSDETFCIDNEALYDICFRTLKLTTPTY 109272 Query 223 GDLNHLVSAVMSGVTVSLRFPGQLNSDLRKLAVNMVPFPRLHFFMVGFAPLTSRGAHHFR 282 GDLNHLVSAVMSGVT S+RFPGQLN+DLRKLAVNMVPFPRLHFFMVGFAPLTSRG+ +R Sbjct 109271 GDLNHLVSAVMSGVTTSIRFPGQLNADLRKLAVNMVPFPRLHFFMVGFAPLTSRGSQQYR 109092 Query 283 AVSVPELTQQMFDPKNMMAASDFRNGRYLTCSAIFRGKVSMKEVEDQMRNVQNKNSSYFV 342 A+SV ELT QMFD KNMMAASD R+GRYL +AIFRGK+SMKEV++QM +VQ KNSSYFV Sbjct 109091 ALSVAELTTQMFDAKNMMAASDPRHGRYLAVAAIFRGKMSMKEVDEQMLSVQTKNSSYFV 108912 Query 343 EWIPNNVQTALCSIPPRGLKMSSTFVGNSTAIQELFKRIGEQFTAMFRRKAFLHWYTGEG 402 EWIPNNV+TA+C IPP+GLKMS+TF+GNSTAIQELFKRI +QF+ MF+RKAFLHWYTGEG Sbjct 108911 EWIPNNVKTAVCDIPPKGLKMSATFIGNSTAIQELFKRISDQFSVMFKRKAFLHWYTGEG 108732 Query 403 MDEMEFTEAESNMNDLVSEYQQYQDA 428 MDEMEFTEAESNMNDLVSEYQQYQDA Sbjct 108731 MDEMEFTEAESNMNDLVSEYQQYQDA 108654
Из TBB_NEUCR, он же тубулин, формируются микротрубочки - компоненты цитоскелета, характерного для эукариотов; последовательность тубулина достаточно консервативна. Тот факт, что в в геноме A. protococcarum нашелся ген, кодирующий гомологичный белок, вполне понятен, так как A. protococcarum - эукариот.
Поиск по геному A. protococcarum выдал 1 ген, гомологичный гену HSP71_YEAST, а также 6 генов (характеристики выравнивания одного из них приведены ниже), кодирующих некоторые, видимо, консервативные участки данного белка (белок однодоменный).
Scaffold | Score (bits) | E-value | Identities | Positives | Gaps |
---|---|---|---|---|---|
199 | 920 | 0.0 | 79% | 90% | 3 |
Query 2 SKAVGIDLGTTYSCVAHFANDRVDIIANDQGNRTTPSFVAFTDTERLIGDAAKNQAAMNP 61 SKA+GIDLGTTYSCV + N++V+IIAND GNRTTPS+VAFTD+ERL+GDAAKNQ +NP Sbjct 1109256 SKAIGIDLGTTYSCVGVW*NEKVEIIAND*GNRTTPSYVAFTDSERLLGDAAKNQVGLNP 1109077 Query 62 SNTVFDAKRLIGRNFNDPEVQADMKHFPFKLIDVDGKPQIQVEFKGETKNFTPEQISSMV 121 NTVFDAKRLIGR F D EVQ+DMKH+PFK+ID GKP I VE+ GETK FTPE++S+MV Sbjct 1109076 YNTVFDAKRLIGRKFADAEVQSDMKHWPFKVIDKAGKPFI*VEYLGETKTFTPEEVSAMV 1108897 Query 122 LGKMKETAESYLGAKVNDAVVTVPAYFNDSQRQATKDAGTIAGLNVLRIINEPTAAAIAY 181 L KMKETAE++LGAKV +AVVTVPAYFNDSQRQATKDAG+IAGLNV+RIINEPTAAAIAY Sbjct 1108896 LTKMKETAEAFLGAKVTNAVVTVPAYFNDSQRQATKDAGSIAGLNVMRIINEPTAAAIAY 1108717 Query 182 GLDKKGK-EEHVLIFDLGGGTFDVSLLSIEDGIFEVKATAGDTHLGGEDFDNRLVNHFIQ 240 GLDKK K E++VLIFDLGGGTFDVSLL+IE+GIFEVKATAGDTHLGGEDFDNRLV HF Q Sbjct 1108716 GLDKKTKGEKNVLIFDLGGGTFDVSLLTIEEGIFEVKATAGDTHLGGEDFDNRLVTHFAQ 1108537 Query 241 EFKRKNKKDLSTNQRALRRLRTACERAKRTLSSSAQTSVEIDSLFEGIDFYTSITRARFE 300 EFKRK+KKDLS N R+LRRLRTACERAKRTLSS+ Q S+EIDSLFEG+DFYTSITRARFE Sbjct 1108536 EFKRKHKKDLSGNARSLRRLRTACERAKRTLSSATQASIEIDSLFEGVDFYTSITRARFE 1108357 Query 301 ELCADLFRSTLDPVEKVLRDAKLDKSQVDEIVLVGGSTRIPKVQKLVTDYFNGKEPNRSI 360 ELC DLFR TLDPVEKVLRD+K+DKSQVDEIVLVGGSTRIPKVQKLV+D+FNGKEPN++I Sbjct 1108356 ELCGDLFRGTLDPVEKVLRDSKIDKSQVDEIVLVGGSTRIPKVQKLVSDFFNGKEPNKTI 1108177 Query 361 NPDEavaygaavqaaILTGDESSKTQDlllldvaplslGIETAGGVMTKLIPRNSTIPTK 420 NPDEAVAYGAAVQA+IL+G+ S KT DLLLLDVAPLSLGIETAGGV T LI RN+TIPTK Sbjct 1108176 NPDEAVAYGAAVQASILSGETSEKT*DLLLLDVAPLSLGIETAGGVFTALIKRNTTIPTK 1107997 Query 421 KSEIFSTYADNQPGVLIQVFEGERAKTKDNNLLGKFELSGIPPAPRGVPQIEVTFDVDSN 480 KSEIFSTYADNQPGVLIQVFEGERA+T DN+ LGKFEL+GIPPAPRGVPQIEVTFD+D+N Sbjct 1107996 KSEIFSTYADNQPGVLIQVFEGERARTADNHQLGKFELTGIPPAPRGVPQIEVTFDIDAN 1107817 Query 481 GILNVSAVEKGTGKSNKITITNDKGRLSKEDIEKMVaeaekfkeedekeSQRIASKNQLE 540 GILNVSA +K TG+SNKITITNDKGRLS+EDIE+MV+EAEK+K++DE+ + RI +KN LE Sbjct 1107816 GILNVSASDKTTGRSNKITITNDKGRLSQEDIERMVSEAEKYKKQDEEATARIHAKNGLE 1107637 Query 541 SIAYSLKNTISE--AGDKLEQADKDTVTKKAEETISWLDSNTTASKEEFDDKLKELQDIA 598 S AY+L+NT+++ K+++ADK+T+ K ETISWLD N ASKEEF+ K KEL+ A Sbjct 1107636 SYAYNLRNTLNDDNLKGKIDEADKETLEKAITETISWLD*NLEASKEEFESKQKELEGTA 1107457 Query 599 NPIMSKLYQ 607 NPIM+KLYQ Sbjct 1107456 NPIMTKLYQ 1107430
Contig | Score (bits) | E-value | Identities | Positives | Gaps |
---|---|---|---|---|---|
999 | 540 | 8e-171 | 82% | 91% | 1 |
Query 2 SKAVGIDLGTTYSCVAHFANDRVDIIANDQGNRTTPSFVAFTDTERLIGDAAKNQAAMNP 61 SKA+GIDLGTTYSCV + N++V+IIANDQGNRTTPS+VAFTD+ERL+GDAAKNQ +NP Sbjct 945 SKAIGIDLGTTYSCVGVW*NEKVEIIANDQGNRTTPSYVAFTDSERLLGDAAKNQVGLNP 766 Query 62 SNTVFDAKRLIGRNFNDPEVQADMKHFPFKLIDVDGKPQIQVEFKGETKNFTPEQISSMV 121 NTVFDAKRLIGR F D EV +DMKH+PFK+ID GKP IQVE+ GETK FTPE++S+MV Sbjct 765 YNTVFDAKRLIGRKFADAEV*SDMKHWPFKVIDKAGKPFIQVEYLGETKTFTPEEVSAMV 586 Query 122 LGKMKETAESYLGAKVNDAVVTVPAYFNDSQRQATKDAGTIAGLNVLRIINEPTAAAIAY 181 L KMKETAE++LGAKV +AVVTVPAYFNDSQRQATKDAG+IAGLNV+RIINEPTAAAIAY Sbjct 585 LTKMKETAEAFLGAKVTNAVVTVPAYFNDSQRQATKDAGSIAGLNVMRIINEPTAAAIAY 406 Query 182 GLDKKGK-EEHVLIFDLGGGTFDVSLLSIEDGIFEVKATAGDTHLGGEDFDNRLVNHFIQ 240 GLDKK K E++VLIFDLGGGTFDVSLL+IE+GIFEVKATAGDTHLGGEDFDNRLV HF Q Sbjct 405 GLDKKTKGEKNVLIFDLGGGTFDVSLLTIEEGIFEVKATAGDTHLGGEDFDNRLVTHFAQ 226 Query 241 EFKRKNKKDLSTNQRALRRLRTACERAKRTLSSSAQTSVEIDSLFEGIDFYTSITRARFE 300 EFKRK+KKDLS N R+LRRLRTACERAKRTLSS+ Q S+EIDSLFEG+DFYTSITRARFE Sbjct 225 EFKRKHKKDLSGNARSLRRLRTACERAKRTLSSATQASIEIDSLFEGVDFYTSITRARFE 46 Query 301 ELCADLFRSTLDPVE 315 ELC DLFR TLDPVE Sbjct 45 ELCGDLFRGTLDPVE 1
HSP71_YEAST - белок теплового шока, встречается у всех живых организмов. Он облегчает транспорт белков через мембраны митохондрий и эндоплазматического ретикулума, участуют в фолдинге белков; массовая транскрипция этого белка активируется при наличии факторов стресса (повышение температуры, отравление организма токсинами, УФ облучение и т д). HSP71_YEAST экспрессируется в организме Saccharomyces cerevisiae, царство Fungi, что оправдывает наличие гомологичного гена в геноме A. protococcarum, родственному грибам протисту. Белок достаточно консервативен: он принадлежит семейству Hsp70 белков, информация о единственнном домене этого белка лежит в базе данных консервативных доменов Pfam.
PRPC_EMENI - митохондриальная 2-метилцитрат синтетаза, катализирующая реакцию конденсации ацетил-СоА и оксалоацетата с образованием цитрата в рамках цикла Кребса. A. protococcarum - эндопаразит водорослей, то есть анаэроб, и цикл Кребса не входит в его катаболитические процессы, соответственно, цитратсинтетаза не экспрессируется. Действительно, в геноме A. protococcarum не нашлось генов, гомологочных гену PRPC_EMENI: для всех четырех находок процент идентичности меньше 56.
Одним из белков, выданных поиском blastx по таксону Fungi оказалась глюкозо-6-фосфат дегидрогеназа, закодированная участком 1071-го контига приблизительно с 12800 по 14300 нуклеотиды. Выравнивания достаточно хорошие, 50-60% идентичности; ниже приведена одна из находок:
Глюкозо-6-фосфатдегидрогеназа участвует в первой реакции окислительного этапа пентозофосфатного гликолиза. Основная реакция фермента:
D-глюкозо-6-фосфат + NADP+ → D-глюконо-1,5-лактон-6-фосфат + NADPH |
Лактон используется в следующих реакциях пентозофосфатного гликолиза, а восстановленный НАДФН в других метаболических процессах клетки.
Acidipropionibacterium acidipropionici strain CGMCC 1.2230 chromosome, complete genome NZ_CP013126.1 Acidipropionibacterium virtanenii strain JS278 chromosome, complete genome NZ_CP025198.1 |
Видно, что на участке 900 000 - 1 200 000 (границы очень приблизительны) произошла инверсия. Изображение на карте сдвинуто (участок 0 - 1 200 000), потому что прочтения последовательностей кольцевых ДНК NZ_CP013126.1 и NZ_CP025198.1 начинаются с разных мест. В целом, за исключением описанной инверсии, геномы схожи.
© Агаева Зара, 2018