Отчет студента 2 курса ФББ Кузеванова Алексея Владимировича по работе

«Предсказание генов».

Создайл в директории Term3 поддиректорию Practice12. Завел файл отчета megacounterfeit.doc.

В директории P:\y05\Term3\GeneRecognition нашёл два файла:

ecoli_kuzevanov.txt — фрагмент последовательности ДНК Escherichia coli в формате EMBL (с аннотацией);

human_kuzevanov.txt — фрагмент последовательности ДНК человека в формате plain.

Скопировал эти файлы в свою рабочую директорию.

Часть 1. Поиск прокариотических генов

1). Мне был дан фрагмент последовательности ДНК Escherichia coli и аннотация к нему в формате EMBL. Мне

нужно было идентифицировать гены в этом фрагменте при помощи программ ORF Finder и GeneMark и

сравнить полученные результаты с аннотацией.

Результаты я оформил в виде таблицы:

CDS из аннотации ecoli_Kuzevanov
Начало	Конец	Длина	Рамка
<1	101	Невозможно определить	Невозможно определить
101	751	651	+1
748	>851	Невозможно определить	Невозможно определить

2). С помощью программы ORF Finder идентифицировал открытые рамки считывания в последовательности ДНК

Cкопировал последовательность ДНК в текстовое поле формы и нажал кнопку OrfFind. Получил список обнаруженных

открытых рамок. Щёлкнул мышью найденную ORF, чтобы получить её более подробное описание. Нажал кнопку

BLAST, чтобы найти последовательности, похожие на транслированную ORF, в банке белковых последовательностей

nr и кнопку Format! в открывшемся окне.

Начало, конец и рамку для самых длинных не пересекающихся по ДНК предсказаний занес в такую же таблицу, как в

пункте 1). Выделил зелёным цветом строки таблицы, соответствующие предсказанным ORF, точно совпадающим

с аннотированными генами. Приложил к отчёту выравнивание, соответствующее лучшему хиту blastp.

Результаты работы ORF finder’а для ecoli_Kuzevanov

Начало

Конец

Длина

Рамка

101

751

651

Найден ли белок, в точности совпадающий с транслированной ORF?

да, так же найдены идентичные данному белку, но из других штаммов Escherichia coli

>ref|NP_416726.1| acetyl-CoA:acetoacetyl-CoA transferase, beta subunit [Escherichia

coli K12]

ref|ZP_00706335.1| COG2057: Acyl CoA:acetate/3-ketoacid CoA transferase, beta subunit

[Escherichia coli HS]

ref|ZP_00736689.1| COG2057: Acyl CoA:acetate/3-ketoacid CoA transferase, beta subunit

[Escherichia coli 53638]

ref|ZP_00926833.1| COG2057: Acyl CoA:acetate/3-ketoacid CoA transferase, beta subunit

[Escherichia coli 101-1]

ref|AP_002821.1| acetyl-CoA:acetoacetyl-CoA transferase, beta subunit [Escherichia

coli W3110]

sp|P76459|ATOA_ECOLI Acetate CoA-transferase subunit beta (Acetyl-CoA:acetoacetate

CoA transferase subunit beta)

dbj|BAA16018.1| acetyl-CoA:acetoacetyl-CoA transferase, beta subunit [Escherichia

coli W3110]

gb|AAC75282.1| acetyl-CoA:acetoacetyl-CoA transferase, beta subunit [Escherichia

coli K12]

Выравнивание, соответствующее лучшему хиту blastp

Query 1 MDAKQRIARRVAQELRDGDIVNLGIGLPTMVANYLPEGIHITLQSENGFLGLGPVTTAHP 60

MDAKQRIARRVAQELRDGDIVNLGIGLPTMVANYLPEGIHITLQSENGFLGLGPVTTAHP

Sbjct 1 MDAKQRIARRVAQELRDGDIVNLGIGLPTMVANYLPEGIHITLQSENGFLGLGPVTTAHP 60

Query 61 DLVNAGGQPCGVLPGAAMFDSAMSFALIRGGHIDACVLGGLQVDEEANLANWVVPGKMVP 120

DLVNAGGQPCGVLPGAAMFDSAMSFALIRGGHIDACVLGGLQVDEEANLANWVVPGKMVP

Sbjct 61 DLVNAGGQPCGVLPGAAMFDSAMSFALIRGGHIDACVLGGLQVDEEANLANWVVPGKMVP 120

Query 121 GMGGAMDLVTGSRKVIIAMEHCAKDGSAKILRRCTMPLTAQHAVHMLVTELAVFRFIDGK 180

GMGGAMDLVTGSRKVIIAMEHCAKDGSAKILRRCTMPLTAQHAVHMLVTELAVFRFIDGK

Sbjct 121 GMGGAMDLVTGSRKVIIAMEHCAKDGSAKILRRCTMPLTAQHAVHMLVTELAVFRFIDGK 180

Query 181 MWLTEIADGCDLATVRAKTEARFEVAADLNTQRGDL 216

MWLTEIADGCDLATVRAKTEARFEVAADLNTQRGDL

Sbjct 181 MWLTEIADGCDLATVRAKTEARFEVAADLNTQRGDL 216

3). С помощью программы GeneMark распознал гены в последовательности ДНК

Скопировал последовательность ДНК в поле Sequence Text. Включил опции Print GeneMark 2.4 predictions

in addition to GeneMark.hmm predictions и Generate PDF graphics (screen). Запустил программу кнопкой

Start GeneMark.hmm. Получил таблицы генов, предсказанных двумя программами: GeneMark и GeneMark 2.4.

В отчете использовал результаты работы GeneMark 2.4.

Занес результаты работы программы GeneMark 2.4 в такую же таблицу, как в пункте 1). Знак < или > возле

границы предсказанного гена означает, что программа предполагает продолжение гена за пределами данной

ей последовательности. Выделил зелёным цветом строки таблицы, соответствующие предсказаниям,

точно совпадающим с аннотацией.

Посмотрел, как распределен кодирующий потенциал по ДНК, для этого нажал гиперссылку

View PDF Graphical Output на странице с предсказаниями GeneMark. На открывшемся PDF-рисунке увидел

графики распределения кодирующего потенциала для каждой рамки считывания на обеих цепях ДНК.

Предсказание генов GeneMark 2.4
начало	конец	длина	класс
<3	101	99	1
101	751	651	1
748	>849	102	1

Приложил график к отчёту.

Часть 2. Поиск эукариотических генов

1). Мне дан фрагмент ДНК из генома человека, содержащий альтернативно сплайсируемый ген. Моя задача —

найти две различные изоформы этого гена (неодинаковые выранивания двух белков с ДНК) и некодирующие

экзоны, используя программы GENSCAN, BlastX и Human Genome Browser (HGB).

С помощью программы GENSCAN выделил экзоны в последовательности ДНК и определите их тип.

Скопировал последовательность ДНК в текстовое поле формы и нажал кнопку Run GENSCAN. Программа

GENSCAN представила результаты в виде таблицы экзонов. Занес в свою таблицу начало, конец и тип всех

предсказанных программой экзонов:

Экзоны, предсказанные GenScan для human_Kuzevanov
начало	конец	тип
256	360	начальный
711	775	внутренний
862	979	внутренний
1062	1170	внутренний
1250	1350	внутренний
1423	1614	внутренний
1755	1834	внутренний
2034	2202	Конечный
2443	2448	poly-A signal (consensus: AATAAA)

2). Выделение экзонов в последовательности ДНК с помощью программы BlastX и сравнение

предсказания программ GENSCAN и BlastX В меню "Choose database" оставил предложенный

по умолчанию банк nr. Ниже в опциях нашел меню, позволяющее ограничить поиск только

какой-нибудь одной таксономической группой, и выбрал в нём позвоночных (Vertebrata).

Отключил фильтр малой сложности (low complexity).

Программа BlastX предсказала изоформы выданного гена.

Нашел изоформы, различающиеся по числу экзонов. Выберал две изоформы с разным числом экзонов. Одна из них

порождена белком, принадлежащим не человеку.

В отчете для каждой изоформы привел выравнивание и отдельную таблицу координат "экзонов" на белке и ДНК:

Возникли проблемы с заполнением таблицы: так как в каждой изоформе находится очень большое количество «экзоов»,

было очень трудно заполнить таблицу и вычислить какие «экзоны» перекрываются, соответственно было трудно

определить какие «экзоны» не встречаются, сопоставляя таблицы координат «экзонов» по двум изоформам.

Для заполнения таблицы выбрал наиболее большие «экзоны», точнее мной было выбрано 6 первых.

Покрасьте в этих таблицах красным цветом отличия изоформ — альтернативные экзоны.

Альтернативными называются экзоны, которые либо отсутствуют в другой изоформе,

либо покрывают собой интрон, идентифицированный в другой изоформе, либо имеют

альтернативный 5'- или 3'-конец. Внимание: из-за описанной выше неточности программы

BlastX отличия концов "экзонов" на 1–10 нуклеотидов не могут быть сочтены настоящей альтернативой.

gi|46361987|ref|NP_996995.1| hydroxyacylglutathione hydrolase-like isoform 1 [Homo sapiens]

gi|45708670|gb|AAH33796.1| Hydroxyacylglutathione hydrolase-like [Homo sapiens]

gi|119606136|gb|EAW85730.1| hydroxyacylglutathione hydrolase-like, isoform CRA_f [Homo sapiens]

Length=290

Score = 271 bits (692), Expect = 3e-71

Identities = 124/124 (100%), Positives = 124/124 (100%), Gaps = 0/124 (0%)

Frame = +1

Query 1540 KVFCGHEHTLSNLEFAQKVEPCNDHVRAKLSWAKARPLSRRGKRVGGEGTGFGVGGALRQ 1719

KVFCGHEHTLSNLEFAQKVEPCNDHVRAKLSWAKARPLSRRGKRVGGEGTGFGVGGALRQ

Sbjct 167 KVFCGHEHTLSNLEFAQKVEPCNDHVRAKLSWAKARPLSRRGKRVGGEGTGFGVGGALRQ 226

Query 1720 GLMVTGACGHSRRGMRMTCPLCRRLWARSASTTPSCGWREYGCCPGASTVTWTLRKASGD 1899

GLMVTGACGHSRRGMRMTCPLCRRLWARSASTTPSCGWREYGCCPGASTVTWTLRKASGD

Sbjct 227 GLMVTGACGHSRRGMRMTCPLCRRLWARSASTTPSCGWREYGCCPGASTVTWTLRKASGD 286

Query 1900 CVLG 1911

CVLG

Sbjct 287 CVLG 290

Score = 88.6 bits (218), Expect(3) = 2e-50

Identities = 37/38 (97%), Positives = 38/38 (100%), Gaps = 0/38 (0%)

Frame = +3

Query 1059 QFGAIHVRCLLTPGHTAGHMSYFLWEDDCPDPPALFSG 1172

+FGAIHVRCLLTPGHTAGHMSYFLWEDDCPDPPALFSG

Sbjct 96 RFGAIHVRCLLTPGHTAGHMSYFLWEDDCPDPPALFSG 133

Score = 82.0 bits (201), Expect(3) = 2e-50

Identities = 40/42 (95%), Positives = 40/42 (95%), Gaps = 0/42 (0%)

Frame = +2

Query 863 DHARGNPELARLRPGLAVLGADERIFSLTRRLAHGEELRVSA 988

DHARGNPELARLRPGLAVLGADERIFSLTRRLAHGEELR A

Sbjct 58 DHARGNPELARLRPGLAVLGADERIFSLTRRLAHGEELRFGA 99

Score = 74.3 bits (181), Expect(3) = 2e-50

Identities = 37/42 (88%), Positives = 37/42 (88%), Gaps = 4/42 (9%)

Frame = +1

Query 1237 PPPP----GDALSVAGCGSCLEGSAQQMYQSLAELGTLPPET 1350

P PP GDALSVAGCGSCLEGSAQQMYQSLAELGTLPPET

Sbjct 125 PDPPALFSGDALSVAGCGSCLEGSAQQMYQSLAELGTLPPET 166

Score = 71.2 bits (173), Expect = 5e-11

Identities = 37/44 (84%), Positives = 39/44 (88%), Gaps = 0/44 (0%)

Frame = +1

Query 256 MKVKVIPVLEDNYMYLVIEELTREAVAVDVAVPKRVRAGRGPQG 387

MKVKVIPVLEDNYMYLVIEELTREAVAVDVAVPKR+ G +G

Sbjct 1 MKVKVIPVLEDNYMYLVIEELTREAVAVDVAVPKRLLEIVGREG 44

Score = 52.4 bits (124), Expect = 3e-05

Identities = 28/41 (68%), Positives = 29/41 (70%), Gaps = 2/41 (4%)

Frame = +3

Query 702 PFQLLEIVGREGVSLTAVLTTHHHW*APAGRGEARGRRLVP 824

P +LLEIVGREGVSLTAVLTTHHHW RG RL P

Sbjct 33 PKRLLEIVGREGVSLTAVLTTHHHW--DHARGNPELARLRP 71

gi|109127081|ref|XP_001087099.1| PREDICTED: similar to hydroxyacylglutathione hydrolase-like isoform 2 [Macaca mulatta]

Length=282

Score = 87.4 bits (215), Expect(3) = 4e-50

Identities = 36/38 (94%), Positives = 38/38 (100%), Gaps = 0/38 (0%)

Frame = +3

Query 1059 QFGAIHVRCLLTPGHTAGHMSYFLWEDDCPDPPALFSG 1172

+FGAIHVRCLLTPGHT+GHMSYFLWEDDCPDPPALFSG

Sbjct 96 RFGAIHVRCLLTPGHTSGHMSYFLWEDDCPDPPALFSG 133

Score = 82.0 bits (201), Expect(3) = 4e-50

Identities = 40/42 (95%), Positives = 40/42 (95%), Gaps = 0/42 (0%)

Frame = +2

Query 863 DHARGNPELARLRPGLAVLGADERIFSLTRRLAHGEELRVSA 988

DHARGNPELARLRPGLAVLGADERIFSLTRRLAHGEELR A

Sbjct 58 DHARGNPELARLRPGLAVLGADERIFSLTRRLAHGEELRFGA 99

Score = 74.3 bits (181), Expect(3) = 4e-50

Identities = 37/42 (88%), Positives = 37/42 (88%), Gaps = 4/42 (9%)

Frame = +1

Query 1237 PPPP----GDALSVAGCGSCLEGSAQQMYQSLAELGTLPPET 1350

P PP GDALSVAGCGSCLEGSAQQMYQSLAELGTLPPET

Sbjct 125 PDPPALFSGDALSVAGCGSCLEGSAQQMYQSLAELGTLPPET 166

Score = 79.3 bits (194), Expect(2) = 5e-25

Identities = 35/36 (97%), Positives = 35/36 (97%), Gaps = 0/36 (0%)

Frame = +1

Query 1540 KVFCGHEHTLSNLEFAQKVEPCNDHVRAKLSWAKAR 1647

KVFCGHEHTLSNLEFAQKVEPCNDHVRAKLSWAK R

Sbjct 167 KVFCGHEHTLSNLEFAQKVEPCNDHVRAKLSWAKKR 202

Score = 59.3 bits (142), Expect(2) = 5e-25

Identities = 27/28 (96%), Positives = 28/28 (100%), Gaps = 0/28 (0%)

Frame = +3

Query 1752 QKRDEDDVPTVPSTLGEERLYNPFLRVA 1835

+KRDEDDVPTVPSTLGEERLYNPFLRVA

Sbjct 200 KKRDEDDVPTVPSTLGEERLYNPFLRVA 227

Score = 105 bits (261), Expect = 3e-21

Identities = 52/55 (94%), Positives = 53/55 (96%), Gaps = 0/55 (0%)

Frame = +1

Query 2035 EEPVRKFTGKAVPADVLEALCKERARFEQAGEPRQPQARALLALQWGLLSAAPHD 2199

EEPVRKFTGKAVPADVLEAL KERARFEQAGEPRQPQARALLALQWGLLSAAP +

Sbjct 228 EEPVRKFTGKAVPADVLEALYKERARFEQAGEPRQPQARALLALQWGLLSAAPQE 282

Score = 70.5 bits (171), Expect = 9e-11

Identities = 36/44 (81%), Positives = 39/44 (88%), Gaps = 0/44 (0%)

Frame = +1

Query 256 MKVKVIPVLEDNYMYLVIEELTREAVAVDVAVPKRVRAGRGPQG 387

MKVKVIPVLEDNYMYLVIEE+TREAVAVDVAVPKR+ G +G

Sbjct 1 MKVKVIPVLEDNYMYLVIEEITREAVAVDVAVPKRLLEIVGREG 44

Score = 52.4 bits (124), Expect = 3e-05

Identities = 28/41 (68%), Positives = 29/41 (70%), Gaps = 2/41 (4%)

Frame = +3

Query 702 PFQLLEIVGREGVSLTAVLTTHHHW*APAGRGEARGRRLVP 824

P +LLEIVGREGVSLTAVLTTHHHW RG RL P

Sbjct 33 PKRLLEIVGREGVSLTAVLTTHHHW--DHARGNPELARLRP 71

>gi\|46361987\|ref\|NP_996995.1\| hydroxyacylglutathione hydrolase-like isoform 1 [Homo sapiens]
координаты по белку	координаты по ДНК
1	256
32	351

33	702
57	782

58	863
99	988

96	1059
133	1172

133	1262
166	1350

167	1540
290	1911

>gi\|109127081\|ref\|XP_001087099.1\| PREDICTED: similar to hydroxyacylglutathione hydrolase-like isoform 2 [Macaca mulatta]
координаты по белку	координаты по ДНК
1	256
32	351

33	702
57	782

58	863
99	988

96	1059
133	1172

133	1262
166	1350

167	1540
202	1647

200	1752
227	1835

228	2035
282	2199

Получается, что экзон из человеческого генома включает в себя 3 экзона из генома обезьяны.

{Мне странно, что такая большая разница в конечных координатах (1911 и 2199). Ведь то маленькое пересечение 167-202 и 200- 227, а также то, что человеческий экзон заканчивается по белку на 290, а макаки – на 282, все равно это все не объясняет разницу в конечных координатах по ДНК….}

Сравниваем с GeneScan

>gi\|46361987\|ref\|NP_996995.1\| hydroxyacylglutathione hydrolase-like isoform 1 [Homo sapiens]
координаты по белку	координаты по ДНК
1	256
32	351

33	702
57	782

58	863
99	988

96	1059
133	1172

133	1262
166	1350

167	1540
290	1911

>gi\|109127081\|ref\|XP_001087099.1\| PREDICTED: similar to hydroxyacylglutathione hydrolase-like isoform 2 [Macaca mulatta]
координаты по белку	координаты по ДНК
1	256
32	351

33	702
57	782

58	863
99	988

96	1059
133	1172

133	1262
166	1350

167	1540
202	1647

200	1752
227	1835

228	2035
282	2199

Экзоны, предсказанные GenScan для human_Kuzevanov
	начало	конец	QQ для белка из Homo sapiens	QQ для белка из Macaca mulatta
экзон 1	256	360	0,914285714	0,914285714
экзон 2	711	775	0,802469136	0,802469136
экзон 3	862	979	0,921259843	0,921259843
экзон 4	1062	1170	0,956140351	0,956140351
экзон 5	1250	1350	0,881188119	0,881188119
экзон 6	1423	1614	0,153374233	0,333333333
экзон 7	1755	1834	0,215053763	0,952380952
экзон 8	2034	2202	нет пересечений	0,976331361
экзон 9	2443	2448	нет пересечений	нет пересечений


>gi\|46361987\|ref\|NP_996995.1\| hydroxyacylglutathione hydrolase-like isoform 1 [Homo sapiens]
gi\|45708670\|gb\|AAH33796.1\| Hydroxyacylglutathione hydrolase-like [Homo sapiens]
	начало	конец
экзон 1	256	351
экзон 2	702	782
экзон 3	863	988
экзон 4	1059	1172
экзон 5	1262	1350
экзон 6	1540	1911


>gi\|109127081\|ref\|XP_001087099.1\| PREDICTED: similar to hydroxyacylglutathione hydrolase-like isoform 2 [Macaca mulatta]
	координаты по белку	координаты по ДНК
экзон 1	256	351
экзон 2	702	782
экзон 3	863	988
экзон 4	1059	1172
экзон 5	1262	1350
экзон 6	1540	1647
экзон 7	1752	1835
экзон 8	2035	2199

3). Найдите Ваш ген в геноме человека, используя программу BLAT в Human Genome Browser. Выделите кодирующие и некодирующие экзоны.

База Human Genome Browser содержит гены, белки, мРНК, EST и другие объекты, картированные на геном человека (и не только человека).

Браузер позволяет просмотреть разнообразную информацию, относящуюся к заданному фрагменту ДНК. Программа BLAT аналогично BLAST

позволяет искать последовательности в геноме с учетом возможной фрагментированности генома. Пошел по ссылке "Blat".

Поместил последовательность ДНК в текстовое поле формы и нажмите кнопку Submit. Получил список найденных фрагментов генома.

Список приведен ниже. Выбрал ту строку, которая имеет максимальное сходство с моей последовательностью по SCORE и максимальную

длину выравнивания. Определил, что моя последовательность находится на прямой цепи геномной ДНК, знак в колонке STRAND «+»,

геномные координаты моей последовательности (717256-719732 н.к.) и номер хромосомы = 16.

Для пересчета координат от геномных к координатам последовательности определим число OFFSET:

последовательность находится на прямой цепи, значит, OFFSET=START(по хромосоме, после столбца STRAND)–1, то есть

OFFSET=717256-1=717255

BLAT Search Results

ACTIONS QUERY SCORE START END QSIZE IDENTITY CHRO STRAND START END SPAN

---------------------------------------------------------------------------------------------------

browser details YourSeq 2477 1 2477 2477 100.0% 16 + 717256 719732 2477

browser details YourSeq 27 845 877 2477 78.6% 16 + 71639731 71639758 28

browser details YourSeq 26 2307 2417 2477 48.3% 11 + 56021006 56021041 36

browser details YourSeq 23 710 743 2477 96.0% 2 - 127156851 127156886 36

browser details YourSeq 23 286 308 2477 100.0% 16 - 1812919 1812941 23

browser details YourSeq 23 1438 1467 2477 90.0% 9 + 27635056 27635086 31

browser details YourSeq 22 979 1008 2477 95.9% 1 - 199634988 199635020 33

browser details YourSeq 22 905 926 2477 100.0% 10 + 134290920 134290941 22

browser details YourSeq 22 983 1007 2477 95.9% 10 + 725931 725964 34

browser details YourSeq 21 1952 1972 2477 100.0% 3 + 197742566 197742586 21

browser details YourSeq 21 1666 1686 2477 100.0% 21 + 34125066 34125086 21

browser details YourSeq 21 1952 1972 2477 100.0% 20 + 34516646 34516666 21

browser details YourSeq 21 435 455 2477 100.0% 13 + 22553911 22553931 21

browser details YourSeq 19 1793 1814 2477 95.3% 4 + 44904372 44904396 25

Щёлкнул по изображению мРНК или EST, появилось её подробное описание. На этой страничке в разделе mRNA/Genomic Alignments

перешел по гиперссылке с выравниванием, а потом найдите раскрашенную последовательность, заголовок которой начинается с "Genomic".

На ней синим выделены кодирующие участки, красным — некодирующие, но их не было выделено, значит некодирующих участков нет.

чёрным — интроны, которые достаточно часто встречаются в Genomic chr16.

Alignment of CR592523 and chr16:716937-719733

cDNA CR592523

CCGGGCACGC GCACCGCCGG CGGGCCTTGT GGTCTCATCG CGCGCAGGAT 50

CCGGGCCGGG CGGGGGCGGG GGCGGGGCGC GTCCGCGGAG GGGGGCGGTT 100

GGCGGCTCCC GAGCCCAGCG CCGCGCTCAG TCCGGACCCC GTGACCGGCG 150

GCCGAGGCCC CGCCTCCGTC AGTCTGTCCT TCGGGTCCTC AGCACAGCCG 200

TGCCGCCCTT CCTAGGGTGT GGAGAGCGGG CCCCGCCCTG AAGGGGCACC 250

GTGGGCTGGG GGGCCTGTTT TGGAGCAGGC ACCGGTGGCC GAGCTCCGTG 300

ACCATGAAGG TCAAGGTCAT CCCCGTGCTC GAGGACAACT ACATGTACCT 350

GGTCATCGAG GAGCTCACGC GCGAGGCGGT GGCCGTGGAC GTGGCTGTGC 400

CCAAGAGGCT GCTGGAGATC GTGGGCCGGG AGGGGGTGTC TCTGACCGCT 450

GTGCTGACCA CCCACCATCA CTGGGACCAC GCGCGGGGAA ACCCGGAGCT 500

GGCGCGGCTT CGTCCCGGGC TGGCGGTGCT GGGCGCGGAC GAGCGCATCT 550

TCTCGCTGAC GCGCAGGCTG GCGCACGGCG AGGAGCTGCG GTTCGGGGCC 600

ATCCACGTGC GTTGCCTCCT GACGCCCGGC CACACCGCCG GCCACATGAG 650

CTACTTCCTG TGGGAGGACG ATTGCCCGGA CCCACCCGCC CTGTTCTCGG 700

GTACCCGCAG CGCGGAGCGC GCCCACCCCG CCTCCCGCCG GCCCCGCCCC 750

ATCTGCTCTG ACCCGCCCTC CCCCGCCAGG CGACGCGCTG TCGGTGGCCG 800

GCTGCGGCTC GTGCCTGGAG GGCAGCGCCC AGCAGATGTA CCAGAGCCTG 850

GCCGAGCTGG GTACCCTGCC CCCCGAGACG AAGGTGTTCT GCGGCCACGA 900

GCACACGCTT AGCAACCTGG AGTTTGCCCA GAAAGTGGAG CCCTGCAACG 950

ACCACGTGAG AGCCAAGCTG TCCTGGGCTA AGGCACGGCC CCTTTCCCGC 1000

CGCGGCAAGA GGGTGGGGGG GGAGGGAACA GGCTTCGGGG TGGGGGGGGC 1050

TCTCAGACAA GGCCTAATGG TGACCGGGGC CTGTGGTCAC TCCAGAAGAG 1100

GGATGAGGAT GACGTGCCCA CTGTGCCGTC GACTCTGGGC GAGGAGCGCC 1150

TCTACAACCC CTTCCTGCGG GTGGCGTGAG TATGGCTGTT GTCCCGGGGC 1200

CTCCACCGTT ACGTGGACCC TTAGGAAGGC ATCTGGGGAC TGCGTGTTGG 1250

GCTGAGTGAG CATCTCTGGC TTGGGGGAGG CTGCTCATTA AGTGCCTGCC 1300

TGCCCGCCCA CCCCTCGGCG CCATGCTCCC GCGTGGGCAG CGGGCCCTGC 1350

GCCTCACTGC ACCCCTCCCT GCAGAGAGGA GCCGGTGCGC AAGTTCACGG 1400

GCAAGGCGGT CCCCGCCGAC GTCCTGGAGG CGCTATGCAA GGAGCGGGCG 1450

CGCTTCGAAC AGGCGGGCGA GCCGCGGCAG CCACAGGCGC GGGCCCTCCT 1500

TGCGCTGCAG TGGGGGCTCC TGAGTGCAGC CCCACACGAC TGAGCCACCC 1550

AGACCCTCAC AGGGCTGGGG CCTGCGTCCC TCCTCGTGAC CTCGGCCAGC 1600

TGGACCCACA TGAGGGCCAC CTCTGGAACC TTCTTCGAGG CCCTGGCCAG 1650

CCATCTGCCC AGCCTCGGAG GGTGGGCAAC CTGGTGCTTC CCGGGTGGAC 1700

ACACAGGACC ACTCAGTGGG GCCTGTGTGG GCGCCGAGAC CTGGGTGTCT 1750

GGGAAGTGGG GCACACGGGG CCTCCGAACT ATGAATAAAG CTTTGAAAGG 1800

CCGTTGTCAG TGTTGGCAGa

Genomic chr16 :

aactcggaaa cgactggctc agccggggcg tcgggagggc ttcctggagg 716886

aggtgccagc gccgggcgcg gcggggtcgg agcgtgcgcg tggcgcccca 716936

CCGGGCACGC GCACCGCCGG CGGGCCTTGT GGTCTCATCG CGCGCAGGAT 716986

CCGGGCCGGG CGGGGGCGGG GGCGGGGCGC GTCCGCGGAG GGGGGCGGTT 717036

GGCGGCTCCC GAGCCCAGCG CCGCGCTCAG TCCGGACCCC GTGACCGGCG 717086

GCCGAGGCCC CGCCTCCGTC AGTCTGTCCT TCGGGTCCTC AGCACAGCCG 717136

TGCCGgtgag gcgggcggcg ggggaacgcg gctgtcccgg gtcaggggtc 717186

ttgcggcggc agggcggggg gccgaggggc ggggcctggg aggaaggcgt 717236

ggcctttggg gactggggct cggactgggg gcggagccgg ggctggttgg 717286

ggaccggccg ggttccgctc ctgctggagc ccggtgcgtg gaattccacg 717336

cgagtgccgg ggagttcctg gggagccggg cttctctttt ggcccccagc 717386

gtgttgaccg agcccgcttc gcacagCCCT TCCTAGGGTG TGGAGAGCGG 717436

GCCCCGCCCT GAAGGGGCAC CGTGGGCTGG GGGGCCTGTT TTGGAGCAGG 717486

CACCGGTGGC CGAGCTCCGT GACCATGAAG GTCAAGGTCA TCCCCGTGCT 717536

CGAGGACAAC TACATGTACC TGGTCATCGA GGAGCTCACG CGCGAGGCGG 717586

TGGCCGTGGA CGTGGCTGTG CCCAAGAGGg tgagggcagg ccgcgggccg 717636

cagggacccg gccgtgtccc ccgagagcct ccccgacccc cctggtagga 717686

gcgagccccc acgtgctctg ctctccggaa gtcattggcg gctggggttc 717736

cttgtttatc ttggggctcc ctgaagttac ggcacctctg gcctccgccc 717786

tttcgctgct gcctggcggt ccctgcacgc gctgggcgca gtcaccgccc 717836

gctgggtccc cgctccccgg cgctccccgg ggctctggcc ggcctggggc 717886

agtgagcgcg gcggatcccg atatggaggg agtgggccac cgggaccgtc 717936

tgtgttaccg tcactcccgt ccctttcagC TGCTGGAGAT CGTGGGCCGG 717986

GAGGGGGTGT CTCTGACCGC TGTGCTGACC ACCCACCATC ACTGgtgagc 718036

gccggcgggg cgcggggagg cacgaggacg ccgccttgtc ccaacccgac 718086

ctaacccggc ccccgcccgc ccgcccgcag GGACCACGCG CGGGGAAACC 718136

CGGAGCTGGC GCGGCTTCGT CCCGGGCTGG CGGTGCTGGG CGCGGACGAG 718186

CGCATCTTCT CGCTGACGCG CAGGCTGGCG CACGGCGAGG AGCTGCGGgt 718236

gagcgcgcgc tcccgggagg ggcggggagg gcgccccggg tccacccgcc 718286

ctcacaggtc cgcctgctcc tccgccgcag TTCGGGGCCA TCCACGTGCG 718336

TTGCCTCCTG ACGCCCGGCC ACACCGCCGG CCACATGAGC TACTTCCTGT 718386

GGGAGGACGA TTGCCCGGAC CCACCCGCCC TGTTCTCGGG TACCCGCAGC 718436

GCGGAGCGCG CCCACCCCGC CTCCCGCCGG CCCCGCCCCA TCTGCTCTGA 718486

CCCGCCCTCC CCCGCCAGGC GACGCGCTGT CGGTGGCCGG CTGCGGCTCG 718536

TGCCTGGAGG GCAGCGCCCA GCAGATGTAC CAGAGCCTGG CCGAGCTGGG 718586

TACCCTGCCC CCCGAGACGg tgagcgggcc tgggccctcc cctcttctcc 718636

cgtgggcaca gcccccacgc tccgcaccct cactgtgcta ggggtgcaga 718686

gtgaatgccc acctgagggc agaccgggca ggggaggcca ggcccccggc 718736

gcaagcactt tccccgcttc ctggccgcgt gcgcgctcac cgagcgctct 718786

tcctccagAA GGTGTTCTGC GGCCACGAGC ACACGCTTAG CAACCTGGAG 718836

TTTGCCCAGA AAGTGGAGCC CTGCAACGAC CACGTGAGAG CCAAGCTGTC 718886

CTGGGCTAAG GCACGGCCCC TTTCCCGCCG CGGCAAGAGG GTGGGGGGGG 718936

AGGGAACAGG CTTCGGGGTG GGGGGGGCTC TCAGACAAGG CCTAATGGTG 718986

ACCGGGGCCT GTGGTCACTC CAGAAGAGGG ATGAGGATGA CGTGCCCACT 719036

GTGCCGTCGA CTCTGGGCGA GGAGCGCCTC TACAACCCCT TCCTGCGGGT 719086

GGCGTGAGTA TGGCTGTTGT CCCGGGGCCT CCACCGTTAC GTGGACCCTT 719136

AGGAAGGCAT CTGGGGACTG CGTGTTGGGC TGAGTGAGCA TCTCTGGCTT 719186

GGGGGAGGCT GCTCATTAAG TGCCTGCCTG CCCGCCCACC CCTCGGCGCC 719236

ATGCTCCCGC GTGGGCAGCG GGCCCTGCGC CTCACTGCAC CCCTCCCTGC 719286

AGAGAGGAGC CGGTGCGCAA GTTCACGGGC AAGGCGGTCC CCGCCGACGT 719336

CCTGGAGGCG CTATGCAAGG AGCGGGCGCG CTTCGAACAG GCGGGCGAGC 719386

CGCGGCAGCC ACAGGCGCGG GCCCTCCTTG CGCTGCAGTG GGGGCTCCTG 719436

AGTGCAGCCC CACACGACTG AGCCACCCAG ACCCTCACAG GGCTGGGGCC 719486

TGCGTCCCTC CTCGTGACCT CGGCCAGCTG GACCCACATG AGGGCCACCT 719536

CTGGAACCTT CTTCGAGGCC CTGGCCAGCC ATCTGCCCAG CCTCGGAGGG 719586

TGGGCAACCT GGTGCTTCCC GGGTGGACAC ACAGGACCAC TCAGTGGGGC 719636

CTGTGTGGGC GCCGAGACCT GGGTGTCTGG GAAGTGGGGC ACACGGGGCC 719686

TCCGAACTAT GAATAAAGCT TTGAAAGGCC GTTGTCAGTG TTGGCAGatg 719736

tgccaggaga ggagctgttt tcgtaggcgt gttttaggag gggtgcgttt 719786

attagacaaa cgctgggaga caggcctggt ggggacctgg ctggggg

идентификатор мРНК
начало экзона	конец экзона	тип экзона
-318	-44	кодирующий
157	360	кодирующий
713	775	кодирующий
911	979	кодирующий
1061	1350	кодирующий
1539	2478	кодирующий

На главную страницу третьего семестра

На главную