Занятие 2. Банк EMBL
В файлах присутствуют 2 полных генома E.coli штаммов W3110 и K12, одна полная кодирующая последовательность, а так же три части последовательности(последние 3 строки в таблице) Последовательности, кодирующие белок pabB_ecoli в двух записях банка EMBL
K02673 1 atgaagacgttatctcccgctgtgattactttactctggcgtcaggacgc 50 U07748 0 -------------------------------------------------- 0 K02673 51 cgctgaattttatttctcccgcttaagccacctgccgtgggcgatgcttt 100 U07748 0 -------------------------------------------------- 0 K02673 101 tacactccggctatgccgatcatccgtatagccgctttgatattgtggtc 150 |||||||||||||||||||||||||||| U07748 1 ----------------------tccgtatagccgctttgatattgtggtc 28 K02673 151 gccgagccgatttgcactttaaccactttcggtaaagaaaccgttgttag 200 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 29 gccgagccgatttgcactttaaccactttcggtaaagaaaccgttgttag 78 K02673 201 tgaaagcgaaaaacgcacaacgaccactgatgacccgctacaggtgctcc 250 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 79 tgaaagcgaaaaacgcacaacgaccactgatgacccgctacaggtgctcc 128 K02673 251 agcaggtgctggatcgcgcagacattcgcccaacgcataacgaagatttg 300 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 129 agcaggtgctggatcgcgcagacattcgcccaacgcataacgaagatttg 178 K02673 301 ccatttcagggcggcgcactggggttgtttggctacgatctgggccgccg 350 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 179 ccatttcagggcggcgcactggggttgtttggctacgatctgggccgccg 228 K02673 351 ttttgagtcactgccagaaattgcggaacaagatatcgttctgccggata 400 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 229 ttttgagtcactgccagaaattgcggaacaagatatcgttctgccggata 278 K02673 401 tggcagtgggtatctacgattgggcgctcattgtcgaccaccagcgtcat 450 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 279 tggcagtgggtatctacgattgggcgctcattgtcgaccaccagcgtcat 328 K02673 451 acagtttctttgctgagtcataatgatgtcaatgcccgtcgggcctggct 500 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 329 acagtttctttgctgagtcataatgatgtcaatgcccgtcgggcctggct 378 K02673 501 ggaaagccagcaattctcgccgcaggaagatttcacgctcacttccgact 550 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 379 ggaaagccagcaattctcgccgcaggaagatttcacgctcacttccgact 428 K02673 551 ggcaatccaatatgacccgcgagcagtacggcgaaaaatttcgccaggta 600 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 429 ggcaatccaatatgacccgcgagcagtacggcgaaaaatttcgccaggta 478 K02673 601 caggaatatctgcacagcggtgattgctatcaggtgaatctcgcccaacg 650 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 479 caggaatatctgcacagcggtgattgctatcaggtgaatctcgcccaacg 528 K02673 651 ttttcatgcgacctattctggcgatgaatggcaggcattccttcagctta 700 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 529 ttttcatgcgacctattctggcgatgaatggcaggcattccttcagctta 578 K02673 701 atcaggccaaccgcgcgccatttagcgcttttttacgtcttgaacagggt 750 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 579 atcaggccaaccgcgcgccatttagcgcttttttacgtcttgaacagggt 628 K02673 751 gcaattttaagcctttcgccagagcggtttattctttgtgataatagtga 800 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 629 gcaattttaagcctttcgccagagcggtttattctttgtgataatagtga 678 K02673 801 aatccagacccgcccgattaaaggcacgctaccacgcctgcccgatcctc 850 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 679 aatccagacccgcccgattaaaggcacgctaccacgcctgcccgatcctc 728 K02673 851 aggaagatagcaaacaagcagtaaaactggcgaactcagcgaaagatcgt 900 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 729 aggaagatagcaaacaagcagtaaaactggcgaactcagcgaaagatcgt 778 K02673 901 gccgaaaatctgatgattgtcgatttaatgcgtaatgatatcggtcgtgt 950 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 779 gccgaaaatctgatgattgtcgatttaatgcgtaatgatatcggtcgtgt 828 K02673 951 tgccgtagcaggttcggtaaaagtaccagagctgttcgtggtggaaccct 1000 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 829 tgccgtagcaggttcggtaaaagtaccagagctgttcgtggtggaaccct 878 K02673 1001 tccctgccgtgcatcatctggtcagcaccataacggcgcaactaccagaa 1050 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 879 tccctgccgtgcatcatctggtcagcaccataacggcgcaactaccagaa 928 K02673 1051 cagttacacgccagcgatctgctgcgcgcagcttttcctggtggctcaat 1100 |||||||||||||||||||||||||||||||||||||||||||||||||| U07748 929 cagttacacgccagcgatctgctgcgcgcagcttttcctggtggctcaat 978 K02673 1101 aaccggggctccgaaagtacgggctatggaaattatcgacgaactggaac 1150 ||||||||||||||||||||||||||||||| U07748 979 aaccggggctccgaaagtacgggctatggaa------------------- 1009 K02673 1151 cgcagcgacgcaatgcctggtgcggcagcattggctatttgagcttttgc 1200 U07748 1009 -------------------------------------------------- 1009 K02673 1201 ggcaacatggataccagtattactatccgcacgctgactgccattaacgg 1250 U07748 1009 -------------------------------------------------- 1009 K02673 1251 acaaattttctgctctgcgggcggtggaattgtcgccgatagccaggaag 1300 U07748 1009 -------------------------------------------------- 1009 K02673 1301 aagcggaatatcaggaaacttttgataaagttaatcgtatcctgaagcaa 1350 U07748 1009 -------------------------------------------------- 1009 K02673 1351 ctggagaagtaa 1362 U07748 1009 ------------ 1009Идентичность выравнивания - 74.1 %. Это связано исключительно с тем, что вторая последовательность - лишь участок полной кодирующей последовательности. На общих участках последовательности полностью идентичны. Данный ген находится на комплементарной цепи. FT CDS join(complement(75869..76003),complement(75430..75518), FT complement(75263..75349),complement(73958..74058), FT complement(73705..73817),complement(73378..73626), FT complement(73143..73277) При этом в гене присутствуют следующие экзоны(9 штук): FT exon complement(72196..73277) FT exon complement(73378..73626) FT exon complement(73705..73817) FT exon complement(73958..74058) FT exon complement(75263..75349) FT exon complement(75430..75518) FT exon complement(75869..76090) FT exon complement(79545..79629) FT exon complement(82322..82482) Если рассмотреть теперь CDS, то она охватывает часть первого экзона (нумерацию ведём по приведённому списку), полностью 2–6 экзоны и часть седьмого. Это также понятно, поскольку набор экзонов представляет собой нуклеотидную последовательность, остающуюся после сплайсинга. Очевидно, этот фрагмент может не совпадать с участком между старт-кодоном и стоп-кодоном. Действительно, на 73143–73145 позициях стоит триплет TCA (так как наш ген расположен на комплементарной цепи, то и триплет комплементарен «привычному» TGA), а на 76001–76003 позициях – триплет CAT (комплементарный старт-кодону ATG). CDS целиком лежит внутри экзонов (то есть, не затрагивает интронов), что тоже понятно.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
На главную страницу >>> |