Signals & Motifs
TATA-бокс в геноме Gossypium hirsutum
Сигнал в геноме G. hirsutum (KY272019.1, 427-473) - это TATA-бокс. Он представляет из себя последовательность нуклеотидов ДНК. Этот сигнал обычно располагается примерно за 30 нуклеотидов до сайта начала транскрипции на матричной цепи ДНК, участвует в инициации транскрипции с РНК-полимеразой II (редко III)[1]. Сигнал распознается ТАТА-связывающим белком (TATA-binding protein, TBP), субъединицей TFIID, который, связываясь с малой бороздкой, расплетает двойную спираль ДНК[2]. Также TBP может подходить к ДНК в комплексе с SAGA[2]
Несмотря на очень раннее появление у эукариот, он не является необходимым для инициации транскрипции. У позвоночных в большинстве случаев вместо него присутствует инициаторный элемет (Inr) со сходной функцией.
Связывание с ТАТА-боксом происходит только при инициации транскрипции. Сигнал обладает низкой эффективностью. Она также может варьировать в зависимости от мутаций.
ПВМ для последовательности Козак человека
Для построения позиционно-весовой матрицы, описывающей вхождения последовательности Козак человека из предложенной таблицы было выбрано 60 первых генов. Следующие 40 использовались в качестве тестовой выборки. Для исследования были выбраны участки с 7-й позиции до старт-кодона до 3-й позиции после него - длиной 13 нуклеотидов. Причем были выбраны исключительно те, что содержали ATG в позициях 7-9*. С помощью скрипта download_kozak.py нужные фрагменты были записаны в файлы learn.fasta и test.fasta.
Позиционно-весовая матрица по последовательностям из learn.txt была построена с помощью скрипта create_pwm.py. Была использована фоновя модель, при которой GC-состав был равен 0.41. В качестве псевдокаунта для всех букв было взято число 0.1.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.8919980393051105 | 0.06351340572232593 | -0.30421137440299145 | -0.19885085874516517 | 0.1376213778760477 | -0.016529301951210357 | -0.10354067894084021 | 1.2827536821790504 | -1.11514159061932 | -1.11514159061932 | -0.19885085874516517 | 0.06351340572232593 | -0.7096764825111557 |
C | 0.13036181786324344 | 0.13036181786324344 | 0.28451249769050185 | 0.23572233352106978 | -0.27510329024492075 | 0.3310325133253948 | 0.5721945701422827 | -1.3737155789130304 | -1.3737155789130304 | -1.3737155789130304 | -0.051959738930711104 | 0.012578782206860185 | -0.051959738930711104 |
G | 0.28451249769050185 | -0.12095261041766256 | 0.18442903913351932 | 0.18442903913351932 | 0.4180438903150244 | -0.19506058257138445 | -0.5627853626967017 | -1.3737155789130304 | -1.3737155789130304 | 1.02417969388534 | 0.18442903913351932 | -0.12095261041766256 | 0.28451249769050185 |
T | -0.27510329024492075 | -0.3621146672345505 | -0.8140997909776079 | -0.8140997909776079 | -0.968250470804866 | -0.5627853626967017 | -0.6805683983530851 | -1.3737155789130304 | 1.02417969388534 | -1.3737155789130304 | -0.27510329024492075 | -0.19506058257138445 | -0.12095261041766256 |
В качестве положительного контроля были выбраны оставшиеся 60 последовательностей из файла test.txt, на котором была проверена полученная ПВМ. Для отрицательного контроля были выбраны области вокруг случайных АТG из генов человека. Также с помощью скрипта get_scores.py было построено распределение счетов для последовательностей, по которым и была построена ПВМ, из learn.txt. Визуализация распределений была сделана с помощью скрипта get_distribution.py c использованием библиотеки Plotly.
Информационное содержание и LOGO
Матрица информационного содержание была построена с помощью скрипта get_ic.py. Для подсчета был выбран двоичный логарифм.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.07589059774326803 | 0.030217745635108005 | -0.08921197685541987 | -0.06759921135143478 | 0.07157604628916024 | -0.007124781946144243 | -0.03994707284279552 | 2.286304185156641 | 0.0 | 0.0 | -0.06759921135143478 | 0.030217745635108005 | -0.10178119548653607 |
C | 0.08632398865409378 | 0.08632398865409378 | 0.2238678518797407 | 0.17571401821020852 | -0.11214299089489575 | 0.2741445211355252 | 0.6145485277480063 | 0.0 | 0.0 | 0.0 | -0.027852917355224927 | 0.007274263874003161 | -0.027852917355224927 |
G | 0.2238678518797407 | -0.05969671489677911 | 0.12981586542526494 | 0.12981586542526494 | 0.3806065702064418 | -0.08792773943223745 | -0.15484835744838957 | 0.0 | 0.0 | 1.7612131404128835 | 0.12981586542526494 | -0.05969671489677911 | 0.2238678518797407 |
T | -0.11214299089489575 | -0.1318380056729531 | -0.14818143403149922 | -0.14818143403149922 | -0.12803574772372395 | -0.15484835744838957 | -0.1560714954474479 | 0.0 | 1.7612131404128835 | 0.0 | -0.11214299089489575 | -0.08792773943223745 | -0.05969671489677911 |
LOGO было построено с помощью консольной версии приложения WebLogo.
weblogo --format png_print --size large --color-scheme classic < learn.fasta > logo.png
Помимо информационно значимого старт-кодона, можно заметить относительно сильный GC-богатый участок со стороны 5'-конца от него. Следующие же за ним три позиции не настолько сильные.
References
* - Это было сделано во-первых из-за того, что в ином случае скачиввались фрагменты, не имеющие отношения к последовательности Козак. Возможно, это связано с ошибками в таблице. Во-вторых, в контрольных фрагментах ATG в позициях 7-9 присутствует обязательно. Таким образом, ограничение также позволило избежать смещения в распределениях счетов.
[1] Wang Y., Jensen R. C., Stumph W. E. Role of TATA box sequence and orientation in determining RNA polymerase II/III transcription specificity. // Nucleic acids research. 24 (15): 3100—3106. PMID 8760900
[2] Baptista T, Grünberg S, Minoungou N, Koster MJ, Timmers HT, Hahn S, Devys D, Tora L. SAGA Is a General Cofactor for RNA Polymerase II Transcription // Molecular Cell. 68 (1): 130–143.e5. PMID 28918903