Signals & Motifs

TATA-бокс в геноме Gossypium hirsutum

Сигнал в геноме G. hirsutum (KY272019.1, 427-473) - это TATA-бокс. Он представляет из себя последовательность нуклеотидов ДНК. Этот сигнал обычно располагается примерно за 30 нуклеотидов до сайта начала транскрипции на матричной цепи ДНК, участвует в инициации транскрипции с РНК-полимеразой II (редко III)[1]. Сигнал распознается ТАТА-связывающим белком (TATA-binding protein, TBP), субъединицей TFIID, который, связываясь с малой бороздкой, расплетает двойную спираль ДНК[2]. Также TBP может подходить к ДНК в комплексе с SAGA[2]

Несмотря на очень раннее появление у эукариот, он не является необходимым для инициации транскрипции. У позвоночных в большинстве случаев вместо него присутствует инициаторный элемет (Inr) со сходной функцией.

Связывание с ТАТА-боксом происходит только при инициации транскрипции. Сигнал обладает низкой эффективностью. Она также может варьировать в зависимости от мутаций.

ПВМ для последовательности Козак человека

Для построения позиционно-весовой матрицы, описывающей вхождения последовательности Козак человека из предложенной таблицы было выбрано 60 первых генов. Следующие 40 использовались в качестве тестовой выборки. Для исследования были выбраны участки с 7-й позиции до старт-кодона до 3-й позиции после него - длиной 13 нуклеотидов. Причем были выбраны исключительно те, что содержали ATG в позициях 7-9*. С помощью скрипта download_kozak.py нужные фрагменты были записаны в файлы learn.fasta и test.fasta.

Позиционно-весовая матрица по последовательностям из learn.txt была построена с помощью скрипта create_pwm.py. Была использована фоновя модель, при которой GC-состав был равен 0.41. В качестве псевдокаунта для всех букв было взято число 0.1.

1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.8919980393051105 0.06351340572232593 -0.30421137440299145 -0.19885085874516517 0.1376213778760477 -0.016529301951210357 -0.10354067894084021 1.2827536821790504 -1.11514159061932 -1.11514159061932 -0.19885085874516517 0.06351340572232593 -0.7096764825111557
C 0.13036181786324344 0.13036181786324344 0.28451249769050185 0.23572233352106978 -0.27510329024492075 0.3310325133253948 0.5721945701422827 -1.3737155789130304 -1.3737155789130304 -1.3737155789130304 -0.051959738930711104 0.012578782206860185 -0.051959738930711104
G 0.28451249769050185 -0.12095261041766256 0.18442903913351932 0.18442903913351932 0.4180438903150244 -0.19506058257138445 -0.5627853626967017 -1.3737155789130304 -1.3737155789130304 1.02417969388534 0.18442903913351932 -0.12095261041766256 0.28451249769050185
T -0.27510329024492075 -0.3621146672345505 -0.8140997909776079 -0.8140997909776079 -0.968250470804866 -0.5627853626967017 -0.6805683983530851 -1.3737155789130304 1.02417969388534 -1.3737155789130304 -0.27510329024492075 -0.19506058257138445 -0.12095261041766256

В качестве положительного контроля были выбраны оставшиеся 60 последовательностей из файла test.txt, на котором была проверена полученная ПВМ. Для отрицательного контроля были выбраны области вокруг случайных АТG из генов человека. Также с помощью скрипта get_scores.py было построено распределение счетов для последовательностей, по которым и была построена ПВМ, из learn.txt. Визуализация распределений была сделана с помощью скрипта get_distribution.py c использованием библиотеки Plotly.

Информационное содержание и LOGO

Матрица информационного содержание была построена с помощью скрипта get_ic.py. Для подсчета был выбран двоичный логарифм.

1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.07589059774326803 0.030217745635108005 -0.08921197685541987 -0.06759921135143478 0.07157604628916024 -0.007124781946144243 -0.03994707284279552 2.286304185156641 0.0 0.0 -0.06759921135143478 0.030217745635108005 -0.10178119548653607
C 0.08632398865409378 0.08632398865409378 0.2238678518797407 0.17571401821020852 -0.11214299089489575 0.2741445211355252 0.6145485277480063 0.0 0.0 0.0 -0.027852917355224927 0.007274263874003161 -0.027852917355224927
G 0.2238678518797407 -0.05969671489677911 0.12981586542526494 0.12981586542526494 0.3806065702064418 -0.08792773943223745 -0.15484835744838957 0.0 0.0 1.7612131404128835 0.12981586542526494 -0.05969671489677911 0.2238678518797407
T -0.11214299089489575 -0.1318380056729531 -0.14818143403149922 -0.14818143403149922 -0.12803574772372395 -0.15484835744838957 -0.1560714954474479 0.0 1.7612131404128835 0.0 -0.11214299089489575 -0.08792773943223745 -0.05969671489677911

LOGO было построено с помощью консольной версии приложения WebLogo.

weblogo --format png_print --size large --color-scheme classic < learn.fasta > logo.png

Помимо информационно значимого старт-кодона, можно заметить относительно сильный GC-богатый участок со стороны 5'-конца от него. Следующие же за ним три позиции не настолько сильные.

References

* - Это было сделано во-первых из-за того, что в ином случае скачиввались фрагменты, не имеющие отношения к последовательности Козак. Возможно, это связано с ошибками в таблице. Во-вторых, в контрольных фрагментах ATG в позициях 7-9 присутствует обязательно. Таким образом, ограничение также позволило избежать смещения в распределениях счетов.

[1] Wang Y., Jensen R. C., Stumph W. E. Role of TATA box sequence and orientation in determining RNA polymerase II/III transcription specificity. // Nucleic acids research. 24 (15): 3100—3106. PMID 8760900

[2] Baptista T, Grünberg S, Minoungou N, Koster MJ, Timmers HT, Hahn S, Devys D, Tora L. SAGA Is a General Cofactor for RNA Polymerase II Transcription // Molecular Cell. 68 (1): 130–143.e5. PMID 28918903