I. Прокариоты
Задача. Проаннотировать скаффолд w31.txt
из желудочного микробиома валлаби, используя ORF Finder, GeneMark и blastp.
ORF Finder нашел только две рамки считывания длинее 180 нуклеотидов (60 кодонов):
Начало | Конец | Длина (а/к) | Цепь | Описание |
95 | 1096 | 333 | + | Фактор транскрипции GalR (галактозный репрессор) |
1374 | 2744 | 456 | + | GalB (прекурсор мальтопорина) |
Выполним blastp
по SwissProt для первой последовательности. Первые пять результатов очень хорошо совпадают с запросом, и все они описаны как фактор транскрипции (галактозный репрессор). Самое хорошее совпадение — с белком из кишечной палочки (GALR_ECOLI
): начало транслированной рамки считывания и белка из E. coli совпадают, совпадений/сходств 48%/65%, гэпов 1%, e-value 6e–107. Покрытие выравнивания относительно рамки считывания 98%. Суммируя всю информацию, делаем вывод о том, что координаты первой найденной открытой рамки считывания следует оставить без изменений.
Для второй открытой рамки считывания поиск по SwissProt дает самое хорошее совпадение с LAMB_AERHH
. Начало практически совпадает (остатки 1/3 соответственно, а на два кодона рамку считывания там двигать некуда), покрытие 100%, поэтому параметры рамки считывания остаются без изменений. Остальные данные о выравнивании: совпадений/сходств 34%/49%, гэпов 11%, e-value 9e–67.
Выравнивания, о которых идет речь выше:
Первой рамки считывания с GALR_ECOLI
Query 1 MATIKDVALLANVSVATVSRVNNNSSKVSPEAKEAVLKAQQELNYHPNVTAKTIAHQNTE 60 MATIKDVA LA VSVATVSRV NNS K S ++ AV A + L+YHPN A+ +A Q TE Sbjct 1 MATIKDVARLAGVSVATVSRVINNSPKASEASRLAVHSAMESLSYHPNANARALAQQTTE 60 Query 61 SIGLIVADISDPYFGAMARAVDEEASKNKYSVLVNNGYHVAELEKKCLDEMIKLHCKAII 120 ++GL+V D+SDP+FGAM +AV++ A +L+ NGYH + E++ ++++I+ C A++ Sbjct 61 TVGLVVGDVSDPFFGAMVKAVEQVAYHTGNFLLIGNGYHNEQKERQAIEQLIRHRCAALV 120 Query 121 AHTLCIDDDTLASYMQNYPNIVLINRILKGFEDRCVALDDLNGAYLAVKHLISNGHKQIA 180 H I D LAS M+ P +VLINRIL GFE+RC+ALDD GA+LA +HLI GH +I Sbjct 121 VHAKMIPDADLASLMKQMPGMVLINRILPGFENRCIALDDRYGAWLATRHLIQQGHTRIG 180 Query 181 YIKSTHNIPDSKNRYDGYLKALEEAKIPFEPALVVEEEPTAQGGEDGAQALLNSSKPFTA 240 Y+ S H+I D+++R GY AL E+ I LV EP GGE LL + FTA Sbjct 181 YLCSNHSISDAEDRLQGYYDALAESGIAANDRLVTFGEPDESGGEQAMTELLGRGRNFTA 240 Query 241 IACYNDMQAAGAMAILMDNDKKVPENISIIGFDNMFISRYLQPRLTTMLNPVKTMAITAV 300 +ACYND AAGAM +L DN VP IS+IGFD++ +SRY++PRLTT+ P+ TMA T Sbjct 241 VACYNDSMAAGAMGVLNDNGIDVPGEISLIGFDDVLVSRYVRPRLTTVRYPIVTMA-TQA 299 Query 301 KIALATEEDN---ANYVHLFTPSLIKRFSVK 328 DN ++F+P+L++R SV Sbjct 300 AELALALADNRPLPEITNVFSPTLVRRHSVS 330
Второй рамки считывания с LAMB_AERHH:
Query 1 MKANWLPISAAVALALGSVTASAVDFHGFFRAGAQLNTQGGEVYCSGNGTSGHLVGRLAD 60 MKA WLPI+A V AL S A AVDFHG+FR+G ++T G + + + VGRL + Sbjct 3 MKAKWLPIAAGVTAALASQAAFAVDFHGYFRSGVGVSTDGS-MQTGLSDNAKQKVGRLGN 61 Query 61 ECDTYAEFVLSQEVYNKDNNKWTVNTLLAYGTTEGNRDLQG--NSWQGVAGSGDTWSGQR 118 E DTY E L EV+NKD + V++++A T+ G+ D + + +Q + +G G Sbjct 62 EADTYGEIQLGSEVFNKDGKTFYVDSMVAM-TSNGSNDWESTESKFQCTSANGTALDGCE 120 Query 119 S------SLREVYAKYDTDSGYS----IWAGKRYYQRKDIHILDLYYLNNSGHGAGIENI 168 + +LR+ + G++ +WAGKRYYQR D+HI D YY N SG GAGIE I Sbjct 121 NKEDATFALRQFNVQAKGLLGFAPEATLWAGKRYYQRHDVHISDFYYWNISGRGAGIEGI 180 Query 169 DVGMGNLNFAVIKWANTGKDGAGTDYN--RNVYKIDARWNAIPLGVVGNLDASVIYGLPF 226 G G ++FA ++ +G + GT YN NV +D R+ IPL G+L+ V Y + Sbjct 181 QAGPGKVSFAWVRNDRSGTNVDGT-YNDEMNVNTLDLRYAGIPLWQDGSLEVGVDYAIAN 239 Query 227 ISDKQKKDEDNKDNNRANQANSGALITLDLGSSFDGDDVAVMNHFVAQYGTNGFADIGNI 286 SD QK + N + A G ++T +L G N V QYGT G++ Sbjct 240 PSDAQK----DSANAQYKNAKDGVMLTAELTQGILGG----FNKTVLQYGTEGYSKTFAF 291 Query 287 GNHAGDNYTYDTHVQ----GVSLIDWGTLDAGN-FGLGYSFIWAHLNSDKAHNQPAATAW 341 GD Y + G +I+ G + GN + +G+ ++ N W Sbjct 292 W---GDRSWYGAEAKDGADGFRIINHGVIPMGNSWEMGHQLVYGVGND----------MW 338 Query 342 TTKRSGWNYSIVIRPEYKWTEFTRTTLELGYSKRKTNYGNNDNNTQVVPKDDNKDPDLYK 401 T S+V RP YKW +F +T E GY K K N +++ YK Sbjct 339 DTNDKWETMSVVARPMYKWDDFNKTIFEGGYFKDKNKSTNG----------TSEEDAGYK 388 Query 402 VTLAQQFTPGKGFWTRPAIRFYVSYLS--GKQFGYRSKNDDKHNYQVTVGTQVEAFW 456 +TLAQ ++ G FW RP IR + SYL+ K+ + N+ + G Q EA+W Sbjct 389 LTLAQAWSAGSSFWARPEIRVFASYLAQDKKEMKGNAFNNGTADDTWNFGVQAEAWW 445
Программа GeneMark 2.4 использует заранее рассчитанные данные о кодирующем потенциале различных участков ДНК. Ее выводы в точности совпадают с результатами ORI Finder:
Начало | Конец | Длина (а/к) | Цепь | Описание |
95 | 1096 | 333 | + | Фактор транскрипции GalR (галактозный репрессор) |
1374 | 2744 | 456 | + | GalB (прекурсор мальтопорина) |
Графическое представление:
IIa. Эукариоты, GENSCAN и Genome Browser
Задача. Определить экзон-интронную структуру и альтернативный сплайсинг фрагмента генома человека h31.txt
.
GENSCAN видит возможность для наличия здесь трех генов. Первый на прямой цепи:
Тип | Начало | Конец | Длина |
начальный | 4426 | 4524 | 99 |
конечный | 6719 | 6829 | 111 |
Второй на обратной, поэтому всё вверх тормашками:
конечный | 15170 | 11266 | 3905 |
внутренний | 15429 | 15337 | 93 |
внутренний | 16293 | 16191 | 103 |
внутренний | 19345 | 19242 | 104 |
внутренний | 21270 | 21181 | 90 |
начальный | 22246 | 21853 | 394 |
Третий опять на прямой:
начальный | 35885 | 36002 | 118 |
внутренний | 36316 | 36509 | 194 |
внутренний | 36554 | 36732 | 179 |
внутренний | 37758 | 38127 | 370 |
конечный | 38426 | 38491 | 66 |
Теперь, воспользовавшись поиском BLAT, найдем место, откуда взята выданная нам последовательность. В выданном нам фрагменте 45975 пар оснований; будучи разделенными на два кусочка, они нашлись в геноме рядом, и в итоге фрагмент оказался соответствующим позициям 57 313 783 — 57 359 757 19-й хромосомы на прямой цепи. В указанной области, учитывая данные по мРНК и EST, находится только один ген, в предыдущих таблицах был указан под номером 2.
Общий вид гена:
На общем плане красными точками (и рамками) отмечены случаи кассетных экзонов, которые можно предположить с различной уверенностью. 4 — классический пример кассетного экзона: он пропущен примерно в половине транскриптов и присутствует в другой половине (например, этот экзон отсутствует в мРНК AF166122 и присутствует в BC104878). Его длина строго одинакова, как видно при большом увеличении. 5 и 6, по идее, похожи на кассетные экзоны, смущает лишь то, что встречаются они в паре-тройке транскриптов (например, оба есть в DB033910 и оба пропущены в BP219205, а только лишь пятый без шестого можно видеть в BP321018), остальные их не содержат. 3 — спорный случай. Единственный транскрипт (DA228970) в этом месте не содержит соответствующего экзона (содержит его, например, BP197231). Поскольку в остальном EST совершенно нормален, нет причины заподозрить ошибку. Видимо, это действительно кассетный экзон.
Самая интересная ситуация здесь — с 1 и 2. 2, по всей видимости, также представляет собой кассетный экзон (BC143664 содержит его, а BC143663, например, нет). Однако с 1 происходит странная ситуация: во-первых, он содержится ни в одной из EST-последовательностей; во-вторых, в первых пяти мРНК его попросту нет. Это самый большой экзон, который, по идее, несет в себе основную часть последовательности белка. Я затрудняюсь дать интерпретацию, почему он отсутствует в пяти мРНК. Считать такой большой экзон кассетным рука не поднимается.
Альтернативный донорный (5') сайт ярко проявляется на разных мРНК около экзона, помеченного на общем плане как 3. Например, в транскрипте AF208968 он начинается примерно на 300 нуклеотидов раньше, чем в AF208969.
IIb. Эукариоты, blastx
Задача. Проаннотировать фрагмент генома двугорбого верблюда c31.txt
с помощью blastx
.
Результаты запроса бласта заставляют предположить, что настоящий ген в выданной области только один: это уридин-фосфорилаза II, в области примерно 73K—98K (длина всего фрагмента ~102.5K).
Возьмем для работы белок NP_001069511.1
, который показывает наиболее близкое сходство с фрагментом генома.
Вот отрезки-экзоны, найденные бластом:
Query 67956
Таблица экзонов (подсвечены на выравниваниях выше); указаны уточненные (и изначальные) координаты:
# | Координаты по белку | Координаты по ДНК | |
1 | 1—21 (1—21) | 67956—68018 (67956—68018) | 1.00 |
2 | 22—60 (19—60) | 73676—73792 (73667—73792) | 0.93 |
3 | 61—113 (60—113) | 79672—79830 (79669—79830) | 0.98 |
4 | 114—151 (109—152) | 82563—82676 (82548—82679) | 0.86 |
5 | 152—221 (152—226) | 86385—86594 (86385—86609) | 0.93 |
6 | 222—270 (219—271) | 88748—88894 (88739—88897) | 0.92 |
7 | 271—320 (266—320) | 98333—98482 (98318—98482) | 0.90 |
Также в выдаче бласта на позициях (приблизительно) 29915—30800; 41903—42397; 54080—54451 наблюдались следы ретротранспозона LINE-1 (насколько я разобрался, конкретно в выданном фрагменте оказался кусочек его эндонуклеазы). Поскольку это — не ген, то... не ген :-) В общем, его разбирать подробнее я не стал.