Работа с BLAST

1. Определение таксономии и функции последовательности из 6 практикума

В рассматриваемой мною в шестом практикуме последовательности оказался фрагмент митохондриального гена I субъединицы цитохром с-оксидазы (COI):

Этот ген встречается среди представителей одного класса, Гастроподов. Ниже приведено фрагмент множественного выравнивания находок, относящихся к разным видам. Видно, что некоторые последовательности выравнены друг относительно друга очень хорошо (напрмер, Echinolittorina trochoides и Lacuna vincta) и можно предположить что они относятся к одному порядку - действительно, эти 2 вида относятся к порядку Littorinimorpha (класс Gastropoda). Обратим внимание на последовательности, которые выравнялись плохо - Peasiella patula и Belomitra gymnobela. Первый организм - представитель порядка Littorinimorphа, второй - Neogastropoda; класс общий, Gastropoda. Таким образом, данный ген общий для представителей одного класса, Гастроподов.

2. Сравнение выдачи megablast и blastn

Поиск гомологов митохондриального гена I субъединицы цитохром с-оксидазы. Я ограничила поиск родом Hastula (taxid:57628).

BLAST Измененные параметры (не по умолчанию) Кол-во находок
megablast 35 все по умолчанию
blastn с параметрами по умолчанию 48 все по умолчанию
чувствительный blastn 51 Word size - 7; Match/Mismatch Scores - 1;-1

Видно, что blastn выдает больше находок, чем megablast. Выравнивание с одним из найденнных blastn генов, которых не оказалось в списке выдачи megablast, приведено ниже:

Длина слова для megablast равна по умолчанию 28. B данном выравнивании нет последовательности из, как минимум, 28 совпадающих нуклеотидов (подряд идущих), зато из 11 есть (длина слова для blastn с параметрами по умолчанию), поэтому этот ген в списке находок blastn есть, а megablasat - нет. Таким образом, megablast из-за высокого порога длины слова может пропустить достаточно много гомологичных последовательностей.

Кроме того, megablast не использует аффинные штрафы за гэпы (т е и за открытие гэпа, и за его продолжение вычитается штраф один и тот же), а в blastn по умолчанию открытие гэпа - минус 5, а за его продолжение - минус 2. Это так же подтверждает то, что megablast менее избирательный. В итоге сравнение megablast и blastn говорит о том, что megablast позволяет быстро найти в банке последовательности, максимально похожие на исходный ген, а blastn чувствителенее и нацелен на поиск гомологичных последлвательностей (это касается как blastn с параметрами по умолчанию так и без). Стоит еще упомянуть, что в список находок blastn, в отличие от megablast, вошли несколько коротких фрагментов целых генов (пример на скриншоте ниже), то есть megablast не учитывает небольшие фрагменты последовательностей, которые могут быть гомологичными участку исходного гена.

Сравнение blastn с разными параметрами показало,что выдача blastn с чувствительными парметрами включает в себя выдачу blastn с параметрами по умолчанию и помимо этого включает в себя больше находок с короткими выравниваниями.

3. Поиск гомологов белков в геноме Amoeboaphelidium protococcarum

В этом задании требуется найти гомологи белков по нуклеотидной базе данных, поэтому используется TBLASTN.

1)TBB_NEUCR

В геноме Amoeboaphelidium protococcarum есть 2 гена, кодирующих гомологичный искомому белок; параметры выравнивания для одного из них приведены ниже.

Scaffold Score (bits) E-value Identities Positives Gaps
26 693 0.0 87% 94% 0

Query  43      QLERMNVYFNEASGNKYVPRAVLVDLEPGTMDAVRAGPFGQLFRPDNFVFGQSGAGNNWA  102
               QL  + VY+NEASG KYVPRAVLVDLEPGTMD+VRAGP+G LFRPDNF+FGQSGAGNNWA
Sbjct  109811  QLYLIVVYYNEASGGKYVPRAVLVDLEPGTMDSVRAGPYGNLFRPDNFIFGQSGAGNNWA  109632

Query  103     KGHYTEGAELVDQVLDVVRREAEGCDCLQGFQITHSlgggtgagmgtllISKIREEFPDR  162
               KGHYTEGAELVD VLDVVR+EAEGCDCLQGFQITHSLGGGTGAGMGTLLISKIREE+PDR
Sbjct  109631  KGHYTEGAELVDSVLDVVRKEAEGCDCLQGFQITHSLGGGTGAGMGTLLISKIREEYPDR  109452

Query  163     MMATFSVVPSPKVSDTVVEPYNATLSVHQLVENSDETFCIDNEALYDICMRTLKLSNPSY  222
               MM TFSVVPSPKVSDTVVEPYNATLSVHQLVENSDETFCIDNEALYDIC RTLKL+ P+Y
Sbjct  109451  MMCTFSVVPSPKVSDTVVEPYNATLSVHQLVENSDETFCIDNEALYDICFRTLKLTTPTY  109272

Query  223     GDLNHLVSAVMSGVTVSLRFPGQLNSDLRKLAVNMVPFPRLHFFMVGFAPLTSRGAHHFR  282
               GDLNHLVSAVMSGVT S+RFPGQLN+DLRKLAVNMVPFPRLHFFMVGFAPLTSRG+  +R
Sbjct  109271  GDLNHLVSAVMSGVTTSIRFPGQLNADLRKLAVNMVPFPRLHFFMVGFAPLTSRGSQQYR  109092

Query  283     AVSVPELTQQMFDPKNMMAASDFRNGRYLTCSAIFRGKVSMKEVEDQMRNVQNKNSSYFV  342
               A+SV ELT QMFD KNMMAASD R+GRYL  +AIFRGK+SMKEV++QM +VQ KNSSYFV
Sbjct  109091  ALSVAELTTQMFDAKNMMAASDPRHGRYLAVAAIFRGKMSMKEVDEQMLSVQTKNSSYFV  108912

Query  343     EWIPNNVQTALCSIPPRGLKMSSTFVGNSTAIQELFKRIGEQFTAMFRRKAFLHWYTGEG  402
               EWIPNNV+TA+C IPP+GLKMS+TF+GNSTAIQELFKRI +QF+ MF+RKAFLHWYTGEG
Sbjct  108911  EWIPNNVKTAVCDIPPKGLKMSATFIGNSTAIQELFKRISDQFSVMFKRKAFLHWYTGEG  108732

Query  403     MDEMEFTEAESNMNDLVSEYQQYQDA  428
               MDEMEFTEAESNMNDLVSEYQQYQDA
Sbjct  108731  MDEMEFTEAESNMNDLVSEYQQYQDA  108654

Из TBB_NEUCR, он же тубулин, формируются микротрубочки - компоненты цитоскелета, характерного для эукариотов; последовательность тубулина достаточно консервативна. Тот факт, что в в геноме A. protococcarum нашелся ген, кодирующий гомологичный белок, вполне понятен, так как A. protococcarum - эукариот.

2)HSP71_YEAST

Поиск по геному A. protococcarum выдал 1 ген, гомологичный гену HSP71_YEAST, а также 6 генов (характеристики выравнивания одного из них приведены ниже), кодирующих некоторые, видимо, консервативные участки данного белка (белок однодоменный).

Ген, гомологичный целому гену HSP71_YEAST
Scaffold Score (bits) E-value Identities Positives Gaps
199 920 0.0 79% 90% 3

Query  2        SKAVGIDLGTTYSCVAHFANDRVDIIANDQGNRTTPSFVAFTDTERLIGDAAKNQAAMNP  61
                SKA+GIDLGTTYSCV  + N++V+IIAND GNRTTPS+VAFTD+ERL+GDAAKNQ  +NP
Sbjct  1109256  SKAIGIDLGTTYSCVGVW*NEKVEIIAND*GNRTTPSYVAFTDSERLLGDAAKNQVGLNP  1109077

Query  62       SNTVFDAKRLIGRNFNDPEVQADMKHFPFKLIDVDGKPQIQVEFKGETKNFTPEQISSMV  121
                 NTVFDAKRLIGR F D EVQ+DMKH+PFK+ID  GKP I VE+ GETK FTPE++S+MV
Sbjct  1109076  YNTVFDAKRLIGRKFADAEVQSDMKHWPFKVIDKAGKPFI*VEYLGETKTFTPEEVSAMV  1108897

Query  122      LGKMKETAESYLGAKVNDAVVTVPAYFNDSQRQATKDAGTIAGLNVLRIINEPTAAAIAY  181
                L KMKETAE++LGAKV +AVVTVPAYFNDSQRQATKDAG+IAGLNV+RIINEPTAAAIAY
Sbjct  1108896  LTKMKETAEAFLGAKVTNAVVTVPAYFNDSQRQATKDAGSIAGLNVMRIINEPTAAAIAY  1108717

Query  182      GLDKKGK-EEHVLIFDLGGGTFDVSLLSIEDGIFEVKATAGDTHLGGEDFDNRLVNHFIQ  240
                GLDKK K E++VLIFDLGGGTFDVSLL+IE+GIFEVKATAGDTHLGGEDFDNRLV HF Q
Sbjct  1108716  GLDKKTKGEKNVLIFDLGGGTFDVSLLTIEEGIFEVKATAGDTHLGGEDFDNRLVTHFAQ  1108537

Query  241      EFKRKNKKDLSTNQRALRRLRTACERAKRTLSSSAQTSVEIDSLFEGIDFYTSITRARFE  300
                EFKRK+KKDLS N R+LRRLRTACERAKRTLSS+ Q S+EIDSLFEG+DFYTSITRARFE
Sbjct  1108536  EFKRKHKKDLSGNARSLRRLRTACERAKRTLSSATQASIEIDSLFEGVDFYTSITRARFE  1108357

Query  301      ELCADLFRSTLDPVEKVLRDAKLDKSQVDEIVLVGGSTRIPKVQKLVTDYFNGKEPNRSI  360
                ELC DLFR TLDPVEKVLRD+K+DKSQVDEIVLVGGSTRIPKVQKLV+D+FNGKEPN++I
Sbjct  1108356  ELCGDLFRGTLDPVEKVLRDSKIDKSQVDEIVLVGGSTRIPKVQKLVSDFFNGKEPNKTI  1108177

Query  361      NPDEavaygaavqaaILTGDESSKTQDlllldvaplslGIETAGGVMTKLIPRNSTIPTK  420
                NPDEAVAYGAAVQA+IL+G+ S KT DLLLLDVAPLSLGIETAGGV T LI RN+TIPTK
Sbjct  1108176  NPDEAVAYGAAVQASILSGETSEKT*DLLLLDVAPLSLGIETAGGVFTALIKRNTTIPTK  1107997

Query  421      KSEIFSTYADNQPGVLIQVFEGERAKTKDNNLLGKFELSGIPPAPRGVPQIEVTFDVDSN  480
                KSEIFSTYADNQPGVLIQVFEGERA+T DN+ LGKFEL+GIPPAPRGVPQIEVTFD+D+N
Sbjct  1107996  KSEIFSTYADNQPGVLIQVFEGERARTADNHQLGKFELTGIPPAPRGVPQIEVTFDIDAN  1107817

Query  481      GILNVSAVEKGTGKSNKITITNDKGRLSKEDIEKMVaeaekfkeedekeSQRIASKNQLE  540
                GILNVSA +K TG+SNKITITNDKGRLS+EDIE+MV+EAEK+K++DE+ + RI +KN LE
Sbjct  1107816  GILNVSASDKTTGRSNKITITNDKGRLSQEDIERMVSEAEKYKKQDEEATARIHAKNGLE  1107637

Query  541      SIAYSLKNTISE--AGDKLEQADKDTVTKKAEETISWLDSNTTASKEEFDDKLKELQDIA  598
                S AY+L+NT+++     K+++ADK+T+ K   ETISWLD N  ASKEEF+ K KEL+  A
Sbjct  1107636  SYAYNLRNTLNDDNLKGKIDEADKETLEKAITETISWLD*NLEASKEEFESKQKELEGTA  1107457

Query  599      NPIMSKLYQ  607
                NPIM+KLYQ
Sbjct  1107456  NPIMTKLYQ  1107430

Ген, гомологичный фрагменту гена HSP71_YEAST
Contig Score (bits) E-value Identities Positives Gaps
999 540 8e-171 82% 91% 1

Query  2    SKAVGIDLGTTYSCVAHFANDRVDIIANDQGNRTTPSFVAFTDTERLIGDAAKNQAAMNP  61
            SKA+GIDLGTTYSCV  + N++V+IIANDQGNRTTPS+VAFTD+ERL+GDAAKNQ  +NP
Sbjct  945  SKAIGIDLGTTYSCVGVW*NEKVEIIANDQGNRTTPSYVAFTDSERLLGDAAKNQVGLNP  766

Query  62   SNTVFDAKRLIGRNFNDPEVQADMKHFPFKLIDVDGKPQIQVEFKGETKNFTPEQISSMV  121
             NTVFDAKRLIGR F D EV +DMKH+PFK+ID  GKP IQVE+ GETK FTPE++S+MV
Sbjct  765  YNTVFDAKRLIGRKFADAEV*SDMKHWPFKVIDKAGKPFIQVEYLGETKTFTPEEVSAMV  586

Query  122  LGKMKETAESYLGAKVNDAVVTVPAYFNDSQRQATKDAGTIAGLNVLRIINEPTAAAIAY  181
            L KMKETAE++LGAKV +AVVTVPAYFNDSQRQATKDAG+IAGLNV+RIINEPTAAAIAY
Sbjct  585  LTKMKETAEAFLGAKVTNAVVTVPAYFNDSQRQATKDAGSIAGLNVMRIINEPTAAAIAY  406

Query  182  GLDKKGK-EEHVLIFDLGGGTFDVSLLSIEDGIFEVKATAGDTHLGGEDFDNRLVNHFIQ  240
            GLDKK K E++VLIFDLGGGTFDVSLL+IE+GIFEVKATAGDTHLGGEDFDNRLV HF Q
Sbjct  405  GLDKKTKGEKNVLIFDLGGGTFDVSLLTIEEGIFEVKATAGDTHLGGEDFDNRLVTHFAQ  226

Query  241  EFKRKNKKDLSTNQRALRRLRTACERAKRTLSSSAQTSVEIDSLFEGIDFYTSITRARFE  300
            EFKRK+KKDLS N R+LRRLRTACERAKRTLSS+ Q S+EIDSLFEG+DFYTSITRARFE
Sbjct  225  EFKRKHKKDLSGNARSLRRLRTACERAKRTLSSATQASIEIDSLFEGVDFYTSITRARFE  46

Query  301  ELCADLFRSTLDPVE  315
            ELC DLFR TLDPVE
Sbjct  45   ELCGDLFRGTLDPVE  1

HSP71_YEAST - белок теплового шока, встречается у всех живых организмов. Он облегчает транспорт белков через мембраны митохондрий и эндоплазматического ретикулума, участуют в фолдинге белков; массовая транскрипция этого белка активируется при наличии факторов стресса (повышение температуры, отравление организма токсинами, УФ облучение и т д). HSP71_YEAST экспрессируется в организме Saccharomyces cerevisiae, царство Fungi, что оправдывает наличие гомологичного гена в геноме A. protococcarum, родственному грибам протисту. Белок достаточно консервативен: он принадлежит семейству Hsp70 белков, информация о единственнном домене этого белка лежит в базе данных консервативных доменов Pfam.

3)PRPC_EMENI

PRPC_EMENI - митохондриальная 2-метилцитрат синтетаза, катализирующая реакцию конденсации ацетил-СоА и оксалоацетата с образованием цитрата в рамках цикла Кребса. A. protococcarum - эндопаразит водорослей, то есть анаэроб, и цикл Кребса не входит в его катаболитические процессы, соответственно, цитратсинтетаза не экспрессируется. Действительно, в геноме A. protococcarum не нашлось генов, гомологочных гену PRPC_EMENI: для всех четырех находок процент идентичности меньше 56.

4. Поиск гена в 1071-ом контиге Amoeboaphelidium protococcarum

Одним из белков, выданных поиском blastx по таксону Fungi оказалась глюкозо-6-фосфат дегидрогеназа, закодированная участком 1071-го контига приблизительно с 12800 по 14300 нуклеотиды. Выравнивания достаточно хорошие, 50-60% идентичности; ниже приведена одна из находок:

Глюкозо-6-фосфатдегидрогеназа участвует в первой реакции окислительного этапа пентозофосфатного гликолиза. Основная реакция фермента:

D-глюкозо-6-фосфат + NADP+ → D-глюконо-1,5-лактон-6-фосфат + NADPH

Лактон используется в следующих реакциях пентозофосфатного гликолиза, а восстановленный НАДФН в других метаболических процессах клетки.

5. Карта локального сходства геномов Acidipropionibacterium acidipropionici и Acidipropionibacterium virtanenii

Acidipropionibacterium acidipropionici strain CGMCC 1.2230 chromosome, complete genome NZ_CP013126.1 Acidipropionibacterium virtanenii strain JS278 chromosome, complete genome NZ_CP025198.1

Видно, что на участке 900 000 - 1 200 000 (границы очень приблизительны) произошла инверсия. Изображение на карте сдвинуто (участок 0 - 1 200 000), потому что прочтения последовательностей кольцевых ДНК NZ_CP013126.1 и NZ_CP025198.1 начинаются с разных мест. В целом, за исключением описанной инверсии, геномы схожи.


© Агаева Зара, 2018