Учебный сайт Кирилла Цуканова → Третий семестр

Предсказание генов

I. Прокариоты

Задача. Проаннотировать скаффолд w31.txt из желудочного микробиома валлаби, используя ORF Finder, GeneMark и blastp.

ORF Finder нашел только две рамки считывания длинее 180 нуклеотидов (60 кодонов):

НачалоКонецДлина (а/к)ЦепьОписание
951096333+Фактор транскрипции GalR (галактозный репрессор)
13742744456+GalB (прекурсор мальтопорина)

Выполним blastp по SwissProt для первой последовательности. Первые пять результатов очень хорошо совпадают с запросом, и все они описаны как фактор транскрипции (галактозный репрессор). Самое хорошее совпадение — с белком из кишечной палочки (GALR_ECOLI): начало транслированной рамки считывания и белка из E. coli совпадают, совпадений/сходств 48%/65%, гэпов 1%, e-value 6e–107. Покрытие выравнивания относительно рамки считывания 98%. Суммируя всю информацию, делаем вывод о том, что координаты первой найденной открытой рамки считывания следует оставить без изменений.

Для второй открытой рамки считывания поиск по SwissProt дает самое хорошее совпадение с LAMB_AERHH. Начало практически совпадает (остатки 1/3 соответственно, а на два кодона рамку считывания там двигать некуда), покрытие 100%, поэтому параметры рамки считывания остаются без изменений. Остальные данные о выравнивании: совпадений/сходств 34%/49%, гэпов 11%, e-value 9e–67.

Выравнивания, о которых идет речь выше:

Первой рамки считывания с GALR_ECOLI

Query  1    MATIKDVALLANVSVATVSRVNNNSSKVSPEAKEAVLKAQQELNYHPNVTAKTIAHQNTE  60
            MATIKDVA LA VSVATVSRV NNS K S  ++ AV  A + L+YHPN  A+ +A Q TE
Sbjct  1    MATIKDVARLAGVSVATVSRVINNSPKASEASRLAVHSAMESLSYHPNANARALAQQTTE  60

Query  61   SIGLIVADISDPYFGAMARAVDEEASKNKYSVLVNNGYHVAELEKKCLDEMIKLHCKAII  120
            ++GL+V D+SDP+FGAM +AV++ A      +L+ NGYH  + E++ ++++I+  C A++
Sbjct  61   TVGLVVGDVSDPFFGAMVKAVEQVAYHTGNFLLIGNGYHNEQKERQAIEQLIRHRCAALV  120

Query  121  AHTLCIDDDTLASYMQNYPNIVLINRILKGFEDRCVALDDLNGAYLAVKHLISNGHKQIA  180
             H   I D  LAS M+  P +VLINRIL GFE+RC+ALDD  GA+LA +HLI  GH +I 
Sbjct  121  VHAKMIPDADLASLMKQMPGMVLINRILPGFENRCIALDDRYGAWLATRHLIQQGHTRIG  180

Query  181  YIKSTHNIPDSKNRYDGYLKALEEAKIPFEPALVVEEEPTAQGGEDGAQALLNSSKPFTA  240
            Y+ S H+I D+++R  GY  AL E+ I     LV   EP   GGE     LL   + FTA
Sbjct  181  YLCSNHSISDAEDRLQGYYDALAESGIAANDRLVTFGEPDESGGEQAMTELLGRGRNFTA  240

Query  241  IACYNDMQAAGAMAILMDNDKKVPENISIIGFDNMFISRYLQPRLTTMLNPVKTMAITAV  300
            +ACYND  AAGAM +L DN   VP  IS+IGFD++ +SRY++PRLTT+  P+ TMA T  
Sbjct  241  VACYNDSMAAGAMGVLNDNGIDVPGEISLIGFDDVLVSRYVRPRLTTVRYPIVTMA-TQA  299

Query  301  KIALATEEDN---ANYVHLFTPSLIKRFSVK  328
                    DN       ++F+P+L++R SV 
Sbjct  300  AELALALADNRPLPEITNVFSPTLVRRHSVS  330

Второй рамки считывания с LAMB_AERHH:

Query  1    MKANWLPISAAVALALGSVTASAVDFHGFFRAGAQLNTQGGEVYCSGNGTSGHLVGRLAD  60
            MKA WLPI+A V  AL S  A AVDFHG+FR+G  ++T G  +    +  +   VGRL +
Sbjct  3    MKAKWLPIAAGVTAALASQAAFAVDFHGYFRSGVGVSTDGS-MQTGLSDNAKQKVGRLGN  61

Query  61   ECDTYAEFVLSQEVYNKDNNKWTVNTLLAYGTTEGNRDLQG--NSWQGVAGSGDTWSGQR  118
            E DTY E  L  EV+NKD   + V++++A  T+ G+ D +   + +Q  + +G    G  
Sbjct  62   EADTYGEIQLGSEVFNKDGKTFYVDSMVAM-TSNGSNDWESTESKFQCTSANGTALDGCE  120

Query  119  S------SLREVYAKYDTDSGYS----IWAGKRYYQRKDIHILDLYYLNNSGHGAGIENI  168
            +      +LR+   +     G++    +WAGKRYYQR D+HI D YY N SG GAGIE I
Sbjct  121  NKEDATFALRQFNVQAKGLLGFAPEATLWAGKRYYQRHDVHISDFYYWNISGRGAGIEGI  180

Query  169  DVGMGNLNFAVIKWANTGKDGAGTDYN--RNVYKIDARWNAIPLGVVGNLDASVIYGLPF  226
              G G ++FA ++   +G +  GT YN   NV  +D R+  IPL   G+L+  V Y +  
Sbjct  181  QAGPGKVSFAWVRNDRSGTNVDGT-YNDEMNVNTLDLRYAGIPLWQDGSLEVGVDYAIAN  239

Query  227  ISDKQKKDEDNKDNNRANQANSGALITLDLGSSFDGDDVAVMNHFVAQYGTNGFADIGNI  286
             SD QK    +  N +   A  G ++T +L     G      N  V QYGT G++     
Sbjct  240  PSDAQK----DSANAQYKNAKDGVMLTAELTQGILGG----FNKTVLQYGTEGYSKTFAF  291

Query  287  GNHAGDNYTYDTHVQ----GVSLIDWGTLDAGN-FGLGYSFIWAHLNSDKAHNQPAATAW  341
                GD   Y    +    G  +I+ G +  GN + +G+  ++   N            W
Sbjct  292  W---GDRSWYGAEAKDGADGFRIINHGVIPMGNSWEMGHQLVYGVGND----------MW  338

Query  342  TTKRSGWNYSIVIRPEYKWTEFTRTTLELGYSKRKTNYGNNDNNTQVVPKDDNKDPDLYK  401
             T       S+V RP YKW +F +T  E GY K K    N            +++   YK
Sbjct  339  DTNDKWETMSVVARPMYKWDDFNKTIFEGGYFKDKNKSTNG----------TSEEDAGYK  388

Query  402  VTLAQQFTPGKGFWTRPAIRFYVSYLS--GKQFGYRSKNDDKHNYQVTVGTQVEAFW  456
            +TLAQ ++ G  FW RP IR + SYL+   K+    + N+   +     G Q EA+W
Sbjct  389  LTLAQAWSAGSSFWARPEIRVFASYLAQDKKEMKGNAFNNGTADDTWNFGVQAEAWW  445

Программа GeneMark 2.4 использует заранее рассчитанные данные о кодирующем потенциале различных участков ДНК. Ее выводы в точности совпадают с результатами ORI Finder:

НачалоКонецДлина (а/к)ЦепьОписание
951096333+Фактор транскрипции GalR (галактозный репрессор)
13742744456+GalB (прекурсор мальтопорина)

Графическое представление:

IIa. Эукариоты, GENSCAN и Genome Browser

Задача. Определить экзон-интронную структуру и альтернативный сплайсинг фрагмента генома человека h31.txt.

GENSCAN видит возможность для наличия здесь трех генов. Первый на прямой цепи:

ТипНачалоКонецДлина
начальный4426452499
конечный67196829111

Второй на обратной, поэтому всё вверх тормашками:

конечный15170112663905
внутренний154291533793
внутренний1629316191103
внутренний1934519242104
внутренний212702118190
начальный2224621853394

Третий опять на прямой:

начальный3588536002118
внутренний3631636509194
внутренний3655436732179
внутренний3775838127370
конечный384263849166

Теперь, воспользовавшись поиском BLAT, найдем место, откуда взята выданная нам последовательность. В выданном нам фрагменте 45975 пар оснований; будучи разделенными на два кусочка, они нашлись в геноме рядом, и в итоге фрагмент оказался соответствующим позициям 57 313 783 — 57 359 757 19-й хромосомы на прямой цепи. В указанной области, учитывая данные по мРНК и EST, находится только один ген, в предыдущих таблицах был указан под номером 2.

Общий вид гена:

На общем плане красными точками (и рамками) отмечены случаи кассетных экзонов, которые можно предположить с различной уверенностью. 4 — классический пример кассетного экзона: он пропущен примерно в половине транскриптов и присутствует в другой половине (например, этот экзон отсутствует в мРНК AF166122 и присутствует в BC104878). Его длина строго одинакова, как видно при большом увеличении. 5 и 6, по идее, похожи на кассетные экзоны, смущает лишь то, что встречаются они в паре-тройке транскриптов (например, оба есть в DB033910 и оба пропущены в BP219205, а только лишь пятый без шестого можно видеть в BP321018), остальные их не содержат. 3 — спорный случай. Единственный транскрипт (DA228970) в этом месте не содержит соответствующего экзона (содержит его, например, BP197231). Поскольку в остальном EST совершенно нормален, нет причины заподозрить ошибку. Видимо, это действительно кассетный экзон.

Самая интересная ситуация здесь — с 1 и 2. 2, по всей видимости, также представляет собой кассетный экзон (BC143664 содержит его, а BC143663, например, нет). Однако с 1 происходит странная ситуация: во-первых, он содержится ни в одной из EST-последовательностей; во-вторых, в первых пяти мРНК его попросту нет. Это самый большой экзон, который, по идее, несет в себе основную часть последовательности белка. Я затрудняюсь дать интерпретацию, почему он отсутствует в пяти мРНК. Считать такой большой экзон кассетным рука не поднимается.

Альтернативный донорный (5') сайт ярко проявляется на разных мРНК около экзона, помеченного на общем плане как 3. Например, в транскрипте AF208968 он начинается примерно на 300 нуклеотидов раньше, чем в AF208969.

IIb. Эукариоты, blastx

Задача. Проаннотировать фрагмент генома двугорбого верблюда c31.txt с помощью blastx.

Результаты запроса бласта заставляют предположить, что настоящий ген в выданной области только один: это уридин-фосфорилаза II, в области примерно 73K—98K (длина всего фрагмента ~102.5K).

Возьмем для работы белок NP_001069511.1, который показывает наиболее близкое сходство с фрагментом генома.

Вот отрезки-экзоны, найденные бластом:

Query  67956  MASIFPASSTPMRSDRNTYVG  68018
              MAS+ PAS+T MRSDRNTYVG
Sbjct  1      MASVLPASNTSMRSDRNTYVG  21

Query  73667  FFRKCFVHVENPYLDSMDEDVLYHLDLGTKTHNLPAMFGDVK  73792
              +  K FVHV+NPYLDSMDEDVLYHLDLGTKTHNLP MFGDVK
Sbjct  19     YVGKSFVHVKNPYLDSMDEDVLYHLDLGTKTHNLPEMFGDVK  60

Query  79669  QFVCIGGSPNRMKAFALFMHKELRLEDAEEDMKDICAGTDRYCMYKIGPVLSIS  79830
              +FVC+GGSPNRMKAFALFMHKELRL D+EED+KDICAGTDRYCMYKIGPVLSIS
Sbjct  60     KFVCVGGSPNRMKAFALFMHKELRLTDSEEDIKDICAGTDRYCMYKIGPVLSIS  113

Query  82548  LFSSQHGMGIPSISIMLHELIKLLYHARCCDVTIIRIGTSGGIG  82679
              + S  HGMGIPSISIMLHELIKLLYHARC DV IIRIGTSGGIG
Sbjct  109    VLSISHGMGIPSISIMLHELIKLLYHARCSDVIIIRIGTSGGIG  152

Query  86385  GIAPGSVVITDEAVDSFFKPQFEQIILDNIVTRSTELDKELAEELLNCSKDISDFPTLTGHTMCTYDFYEGEKNL  86609
              GIAPGSVVITDEAVDSFFKP+FEQ+ILDNIVTRSTELDKELAEE+ NCSK+IS+FPTL GHTMCTYDFYEG+  L
Sbjct  152    GIAPGSVVITDEAVDSFFKPRFEQVILDNIVTRSTELDKELAEEIFNCSKEISNFPTLIGHTMCTYDFYEGQGRL  226  

Query  88739  LFSGQGRLDGALCSFSREKGLDYLKRAYNAGVRNIEMESTVFAAMCRLCGLKG  88897
               + GQGRLDGALCSFSREKGLDYLKRAYNAG+RNIEMESTVFAAMCRLCGLK 
Sbjct  219    FYEGQGRLDGALCSFSREKGLDYLKRAYNAGIRNIEMESTVFAAMCRLCGLKA  271

Query  98318  LFTLLAAVVCVTLLDRLECDQINFPHDVLVEYQKRPQRLISKFIKQRLGLRDQTS  98482
              L  L AAVVCVTLL+RLECDQIN PHDVLVEYQKRPQ LISKFIKQRLGL DQTS
Sbjct  266    LCGLKAAVVCVTLLNRLECDQINSPHDVLVEYQKRPQLLISKFIKQRLGLCDQTS  320
Таблица экзонов (подсвечены на выравниваниях выше); указаны уточненные (и изначальные) координаты:

#Координаты по белкуКоординаты по ДНКQQ
11—21 (1—21)67956—68018 (67956—68018)1.00
222—60 (19—60)73676—73792 (73667—73792)0.93
361—113 (60—113)79672—79830 (79669—79830)0.98
4114—151 (109—152)82563—82676 (82548—82679)0.86
5152—221 (152—226)86385—86594 (86385—86609)0.93
6222—270 (219—271)88748—88894 (88739—88897)0.92
7271—320 (266—320)98333—98482 (98318—98482)0.90

Также в выдаче бласта на позициях (приблизительно) 29915—30800; 41903—42397; 54080—54451 наблюдались следы ретротранспозона LINE-1 (насколько я разобрался, конкретно в выданном фрагменте оказался кусочек его эндонуклеазы). Поскольку это — не ген, то... не ген :-) В общем, его разбирать подробнее я не стал.