Знакомство со структурой банка RefSeq посредством поисковой системы SRS
Через SRS вывела список хромосом дрожжей Saccharomyces cerevisiae.
REFSEQ_DNA:NC_001133 NC_001133 Saccharomyces cerevisiae S288c chromosome I, complete sequence. 230218 REFSEQ_DNA:NC_001134 NC_001134 Saccharomyces cerevisiae S288c chromosome II, complete sequence. 813184 REFSEQ_DNA:NC_001135 NC_001135 Saccharomyces cerevisiae S288c chromosome III, complete sequence. 316620 REFSEQ_DNA:NC_001136 NC_001136 Saccharomyces cerevisiae S288c chromosome IV, complete sequence. 1531933 REFSEQ_DNA:NC_001137 NC_001137 Saccharomyces cerevisiae S288c chromosome V, complete sequence. 576874 REFSEQ_DNA:NC_001138 NC_001138 Saccharomyces cerevisiae S288c chromosome VI, complete sequence. 270161 REFSEQ_DNA:NC_001139 NC_001139 Saccharomyces cerevisiae S288c chromosome VII, complete sequence. 1090940 REFSEQ_DNA:NC_001140 NC_001140 Saccharomyces cerevisiae S288c chromosome VIII, complete sequence. 562643 REFSEQ_DNA:NC_001141 NC_001141 Saccharomyces cerevisiae S288c chromosome IX, complete sequence. 439888 REFSEQ_DNA:NC_001142 NC_001142 Saccharomyces cerevisiae S288c chromosome X, complete sequence. 745751 REFSEQ_DNA:NC_001143 NC_001143 Saccharomyces cerevisiae S288c chromosome XI, complete sequence. 666816 REFSEQ_DNA:NC_001144 NC_001144 Saccharomyces cerevisiae S288c chromosome XII, complete sequence. 1078177 REFSEQ_DNA:NC_001145 NC_001145 Saccharomyces cerevisiae S288c chromosome XIII, complete sequence. 924431 REFSEQ_DNA:NC_001146 NC_001146 Saccharomyces cerevisiae S288c chromosome XIV, complete sequence. 784333 REFSEQ_DNA:NC_001147 NC_001147 Saccharomyces cerevisiae S288c chromosome XV, complete sequence. 1091291 REFSEQ_DNA:NC_001148 NC_001148 Saccharomyces cerevisiae S288c chromosome XVI, complete sequence. 948066
Мне была задана восьмая хромосома. Ее длина 562643, количество генов и тРНК в ней - 297 и 11 соответственно.Для нее я привожу примеры четырёх генов на заданной хромосоме, а именно:
– гена, который находится на прямой цепи и не имеет интронов;
gene 6401..7546 /gene="COS8" /locus_tag="YHL048W" /db_xref="GeneID:856337" mRNA 6401..7546 /gene="COS8" /locus_tag="YHL048W" /product="Cos8p" /transcript_id="NM_001179128.1" /db_xref="GI:296145324" /db_xref="GeneID:856337" CDS 6401..7546 /gene="COS8" /locus_tag="YHL048W" /note="Nuclear membrane protein, member of the DUP380 subfamily of conserved, often subtelomerically-encoded proteins; regulation suggests a potential role in the unfolded protein response" /codon_start=1 /product="Cos8p" /protein_id="NP_011815.1" /db_xref="GI:6321739" /db_xref="SGD:S000001040" /db_xref="GeneID:856337" /translation="MKENEVKDEKSVDVLSFKQLEFQKTVLPQDVFRNELTWFCYEIY KSLAFRIWMLLWLPLSVWWKLSSNWIHPLIVSLLVLFLGPFFVLVICGLSRKRSLSKQ LIQFCKEITEDTPSSDPHDWEVVAANLNSYFYENKTWNTKYFFFNAMSCQKAFKTTLL EPFSLKKDESAKVKSFKDSVPYIEEALQVYAAGFDKEWKLFNTEKEESPFDLEDIQLP KEAYRFKLTWILKRIFNLRCLPLFLYYFLIVYTSGNADLISRFLFPVVMFFIMTRDFQ NMRMIVLSVKMEHKMQFLSTIINEQESGANGWDEIAKKMNRYLFEKKVWNNEEFFYDG LDCEWFFRRFFYRLLSLKKPMWFASLNVELWPYIKEAQSARNEKPLK"– гена, который находится на обратной цепи и не имеет интронов;
gene complement(3726..4541) /locus_tag="YHL049C" /db_xref="GeneID:856336" mRNA complement(3726..4541) /locus_tag="YHL049C" /product="hypothetical protein" /transcript_id="NM_001179129.1" /db_xref="GI:296145322" /db_xref="GeneID:856336" CDS complement(3726..4541) /locus_tag="YHL049C" /codon_start=1 /product="hypothetical protein" /protein_id="NP_011814.1" /db_xref="GI:6321738" /db_xref="SGD:S000001041" /db_xref="GeneID:856336" /translation="MKVSDRRKFEKANFDEFESALNNKNDLVHCPSITLFESIPTEVR SFYEDEKSGLIKVVKFRTGAMDRKRSFEKIVVSVMVGKNVQKFLTFVEDEPDFQGGPI PSKYLIPKKINLMVYTLFQVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCHEIA SARPNDSSTMRTFTDFVSGAPIVRSLQKSTIRKYGYNLAPHMFLLLHVDELSIFSAYQ ASLPGEKKVDTERLKRDLCPRKPTEIKYFSQICNDMMNKKDRLGDVLHVCCPS"– гена, который находится на прямой цепи и имеет хотя бы один интрон;
gene 85909..91318 /locus_tag="YHL009W-B" /db_xref="GeneID:856380" mRNA join(<85909..86994,86996..>91318) /locus_tag="YHL009W-B" /product="gag-pol fusion protein" /transcript_id="NM_001184404.1" /db_xref="GI:296145363" /db_xref="GeneID:856380" CDS join(85909..86994,86996..91318) /locus_tag="YHL009W-B" /EC_number="2.7.7.49" /EC_number="2.7.7.7" /EC_number="3.4.23.-" /EC_number="3.1.26.4" /ribosomal_slippage /note="Retrotransposon TYA Gag and TYB Pol genes; transcribed/translated as one unit; polyprotein is processed to make a nucleocapsid-like protein (Gag), reverse transcriptase (RT), protease (PR), and integrase (IN); similar to retroviral genes" /codon_start=1 /product="gag-pol fusion protein" /protein_id="NP_058133.1" /db_xref="GI:7839180" /db_xref="SGD:S000007372" /db_xref="GeneID:856380" /translation="MATPVRDETRNVIDDNISARIQSKVKTNDTVRQTPSSLRKVSIK DEQVKQYQRNLNRFKTILNGLKAEEEKLSETDDIQMLAEKLLKLGETIDKVENRIVDL VEKIQLLETNENNNILHEHIDATGTYYLFDTLTSTNKRFYPKDCVFDYRTNNVENIPI LLNNFKKFIKKYQFDDVFENDIIEIDPRENEILCKIIKEGLGESLDIMNTNTTDIFRI IDGLKNKYRSLHGRDVRIRAWEKVLVDTTCRNSALLMNKLQKLVLMEKWIFSKCCQDC PNLKDYLQEAIMGTLHESLRNSVKQRLYNIPHNVGINHEEFLINTVIETVIDLSPIAD DQIENSCMYCKSVFHCSINCKKKPNRELGLTRPISQKPIIYKVHRDNNNLSPVQNEQK SWNKTQKKSNKVYNSKKLVIIDTGSGVNITNDKTLLHNYEDSNRSTRFFGIGKNSSVS VKGYGYIKIKNGHNNTDNKCLLTYYVPEEESTIISCYDLAKKTKMVLSRKYTRLGNKI IKIKTKIVNGVIHVKMNELIERPSDDSKINAIKPTSSPGFKLNKRSITLEDAHKRMGH TGIQQIENSIKHNHYEESLDLIKEPNEFWCQTCKISKATKRNHYTGSMNNHSTDHEPG SSWCMDIFGPVSSSNADTKRYMLIMVDNNTRYCMTSTHFNKNAETILAQIRKNIQYVE TQFDRKVREINSDRGTEFTNDQIEEYFISKGIHHILTSTQDHAANGRAERYIRTIVTD ATTLLRQSNLRVKFWEYAVTSATNIRNCLEHKSTGKLPLKAISRQPVTVRLMSFLPFG EKGIIWNHNHKKLKPSGLPSIILCKDPNSYGYKFFIPSKNKIVTSDNYTIPNYTMDGR VRNTQNIYKSHQFSSHNDNEEDQIETVTNLCEALENYEDDNKPITRLEDLFTEEELSQ IDSNAKYPSPSNNLEGDLDYVFSDVEESGDYDVESELSTTNTSISTDKNKILSNKDFN SELASTEISISEIDKKGLINTSHIDEDKYDEKVHRIPSIIQEKLVGSKNTIKINDENR ISDRIRSKNIGSILNTGLSRCVDITDESITNKDESMHNAKPELIQEQFNKTNHETSFP KEGSIGTNVKFRNTDNEISLKTGDTSLPIKTLESINNHHSNDYSTNKVEKFEKENHHP PPIEDIVDMSDQTDMESNCQDGNNLKELKVTDKNVPTDNGTNVSPRLEQNIEASGSPV QTVNKSAFLNKEFSSLNMKRKRKRHDKNNSLTSYELERDKKRSKRNRVKLIPDNMETV SAQKIRAIYYNEAISKNPDLKEKHEYKQAYHKELQNLKDMKVFDVDVKYSRSEIPDNL IVPTNTIFTKKRNGIYKARIVCRGDTQSPDTYSVITTESLNHNHIKIFLMIANNRNMF MKTLDINHAFLYAKLEEEIYIPHPHDRRCVVKLNKALYGLKQSPKEWNDHLRQYLNGI GLKDNSYTPGLYQTEDKNLMIAVYVDDCVIAASNEQRLDEFINKLKSNFELKITGTLI DDVLDTDILGMDLVYNKRLGTIDLTLKSFINRMDKKYNEELKKIRKSSIPHMSTYKID PKKDVLQMSEEEFRQGVLKLQQLLGELNYVRHKCRYDINFAVKKVARLVNYPHERVFY MIYKIIQYLVRYKDIGIHYDRDCNKDKKVIAITDASVGSEYDAQSRIGVILWYGMNIF NVYSNKSTNRCVSSTEAELHAIYEGYADSETLKVTLKELGEGDNNDIVMITDSKPAIQ GLNRSYQQPKEKFTWIKTEIIKEKIKEKSIKLLKITGKGNIADLLTKPVSASDFKRFI QVLKNKITSQDILASTDY"– гена, который находится на обратной цепи и имеет хотя бы один интрон.
gene complement(445..3311) /locus_tag="YHL050C" /db_xref="GeneID:856335" mRNA complement(join(445..1897,2671..3311)) /locus_tag="YHL050C" /product="hypothetical protein" /transcript_id="NM_001179130.1" /db_xref="GI:296145321" /db_xref="GeneID:856335" CDS complement(join(445..1897,2671..3311)) /locus_tag="YHL050C" /note="hypothetical protein, potential Cdc28p substrate" /codon_start=1 /product="hypothetical protein" /protein_id="NP_011813.1" /db_xref="GI:6321737" /db_xref="SGD:S000001042" /db_xref="GeneID:856335" /translation="MADTPSVAVQAPPGYGKTELFHLPLIALASKGDVEYVSFLFVPY TVLLANCMIRLGRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTDRIAAWEN IVECTFRTNNVKLGYLIVDELHNFETEVYRQSQFGGITNLDFDAFEKAIFLSGTAPEA VADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSKVPLGTNAT TTASTNVRTSATTTASINVRTSATTTASINVRTSATTTESTNSNTNATTTESTNSSTN ATTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKEPYKRKGSQMVL LERKKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDIYFCPEGVFTQYGLCKGCQ KMFELCVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKFFS VKRREIYSQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWS NLRESKTEVLQYFLNWDEKKCQEEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQ YVKLQFSRHHRQLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFYNKTFR QKLEYLLEQISEVWLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRF DIILLCRDSSREVGE"
Получение последовательности, кодирующей заданный белок
На kodomo выполнила команду entret sw:4ot_bacsu, где 4ot_bacsu – AC моего белка в Swiss-Prot. В полученном файле нашла строки, начинающуюся с "DR EMBL", сразу после "EMBL" идёт AC записи EMBL.
DR EMBL; Z80360; CAB02512.1; -; Genomic_DNA. DR EMBL; AL009126; CAB15781.1; -; Genomic_DNA.
К моему белку относится запись
FT CDS complement(2388..2576) FT /transl_table=11 FT /gene="ywhB" FT /product="Unknown, highly similar to Pseudomonas putida FT 4-oxalocrotonate tautomerase" FT /db_xref="GOA:P70994" FT /db_xref="InterPro:IPR004370" FT /db_xref="InterPro:IPR014347" FT /db_xref="InterPro:IPR018191" FT /db_xref="PDB:2OP8" FT /db_xref="PDB:2OPA" FT /db_xref="UniProtKB/Swiss-Prot:P70994" FT /protein_id="CAB02512.1" FT /translation="MPYVTVKMLEGRTDEQKRNLVEKVTEAVKETTGASEEKIVVFIEE FT MRKDHYAVAGKRLSDME" FT RBS complement(2588..2594) FT /note="label:ywhB"
Понятно, что кодирующая последовательность находится на обратной цепи с 2388 по 2576 знак. Воспользовалась командой seqret с опцией -sask и получила последовательность гена.
>Z80360 Z80360.1 B.subtilis thrZ downstream chromosomal region. atgccatacgtaactgtcaaaatgctcgaaggccgtacagacgagcaaaaacgcaatctt gtcgagaaagtaacagaagccgtaaaggaaacaaccggtgcttctgaagaaaaaattgtt gtctttatagaagaaatgagaaaagaccattatgccgtcgcaggcaaacgcctgagcgat atggaataa
Выравнивание белков и их генов
Для своего белка и одного из его гомологов создала (во всех приведенных ниже выравниваниях верхняя последовательность - мой белок YWHB_BACSU, а нижняя - его гомолог 4OT_COMTE):
а) выравнивание последовательностей белков программой needle:
P70994 1 MPYVTVKMLEGRTDEQKRNLVEKVTEAVKETTGASEEKIVVFIEEMRKDH 50 ||:..:.|||||::|||:.::||||.|:.|..||....:.|:|.::.|:: 4ot_comte 1 MPFAQIYMLEGRSEEQKKAVIEKVTRALVEAVGAPSANVRVWIHDVPKEN 50 P70994 51 YAVAGKRLSDME- 62 :.:||....::. 4ot_comte 51 WGIAGVSAKELGR 63
б) выравнивание последовательностей их генов программой needle:
Z80360 1 atgccatacgtaactgtcaaa-----atgctcgaaggccgtacagacgag 45 |||||||.||.| |||| |||||.||||||||.|..||.||. AB029044 1 atgccattcgca-----caaatctacatgctggaaggccgcagcgaggaa 45 Z80360 46 c--aaaaacgcaatcttg----tcgagaaagtaac------------aga 77 | |||||.|| | ||||.||.||.|| .|| AB029044 46 cagaaaaaggc------ggtgatcgaaaaggttacccgggccctggtcga 89 Z80360 78 agccgtaaaggaaacaaccggtgcttctg--aagaaaaaattgt---tgt 122 .||||| .|| ||.|.|.||.| || ||| .|| AB029044 90 ggccgt--tgg-------cgctccctccgccaa--------tgtgcgggt 122 Z80360 123 ctttatagaaga-------aatgagaaaagac-----cattatgccgtcg 160 ||..|||.|.|| ||.|||| || ||| |||||.|| AB029044 123 ctggatacacgatgtgcccaaggaga----actggggcat--tgccggcg 166 Z80360 161 -cag-gcaaa----------cgcctgagcgatatggaataa 189 ||| ||.|| || |||| AB029044 167 tcagtgccaaagaactggggcg-ctga-------------- 192
в) выравнивание последовательностей их генов программой tranalign (эта программа очень милая - она просто сделала в нуклеотидных последовательностях гэпы на месте гэпов в выровненных белках).
>Z80360 atgccatacgtaactgtcaaaatgctcgaaggccgtacagacgagcaaaaacgcaatctt gtcgagaaagtaacagaagccgtaaaggaaacaaccggtgcttctgaagaaaaaattgtt gtctttatagaagaaatgagaaaagaccattatgccgtcgcaggcaaacgcctgagcgat atggaa--- >AB029044 atgccattcgcacaaatctacatgctggaaggccgcagcgaggaacagaaaaaggcggtg atcgaaaaggttacccgggccctggtcgaggccgttggcgctccctccgccaatgtgcgg gtctggatacacgatgtgcccaaggagaactggggcattgccggcgtcagtgccaaagaa ctggggcgc
Выравнивание последовательностей генов программой needle мне кажется наименее биологически осмысленным: здесь нет никакого учета триплетности, что ведет к неправильным выводам - гомологами могут оказаться последовательности, имеющие совершенно разный аминокислотный состав. Наиболее логичным кажется выравнивание последовательности белков по белку.
Поиск в нуклеотидном банке NCBI по имени гена
Для поиска в нуклеотидном банке я взяла ген дрожжей YHL009W-B. По данному запросу в NCBI у меня нашлись три последовательности: матричная РНК данного белка длиной 5,409 пар нуклеотидов и две "разные" восьмые хромосомы Saccharomyces cerevisiae длиной 562643 пары оснований. Радует то, что результата всего три - здесь есть некоторая однозначность (рисунок 1). Порадовали две восьмые хромосомы; они, видимо, были получены разными людьми. У третьей записи есть кнопочка Related sequences. По ней можно просмотреть еще 1475 последовательностей, которые представляют собой кусочки восьмой хромосомы различной длины.
Рисунок 1. Результаты поиска по нуклеотидному банку.
Итак, что можно сказать по поводу моих ощущений от поиска: во-первых, оно ищется; во-вторых, поиски по названию гена дают не так много результатов, что дает надежду на точность результатов поиска; в-третьих, по Related sequences можно найти информацию о других генах, находящихся в той же хромосоме.