Каноническая ТАТА-последовательность ТАТААААА перед генами эукариот[2]. Сигнал адресован системе транскрипции: с TATA-box связываются TBS, который необходим всем трем РНК-полимеразам для начала транскрипции. Сигнал является высокоэффективным, так как является одним из основных факторов инциации транскрипции[2].
Послеовательность Козак - окрестность ATG кодона - старта транскрипции в геноме человека.
На вход в скрипт [3] Георгия Муравьёва была дана таблица human-genes.tsv с информациех о генах человека.
После запуска скрипта были получены файлы:
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.26 | -0.31 | -0.31 | -0.28 | 0.33 | 0.07 | -0.41 | 1.22 | -6.60 | -6.60 | -0.24 | -0.08 | -0.45 |
T | -0.31 | -0.62 | -0.35 | -0.48 | -1.18 | -0.77 | -1.18 | -6.60 | 1.22 | -6.60 | -0.66 | -0.60 | -0.25 |
G | 0.21 | 0.59 | 0.25 | 0.25 | 0.64 | -0.10 | 0.37 | -6.24 | -6.24 | 1.58 | 0.80 | -0.09 | 0.47 |
C | 0.39 | 0.22 | 0.42 | 0.48 | -0.64 | 0.56 | 0.71 | -6.24 | -6.24 | -6.24 | -0.25 | 0.61 | 0.21 |
Обучение | Положительный контроль | Отрицательный контроль | |
---|---|---|---|
Cигнал(+) | 283 (56.6%) | 282 (56.4%) | 72 (14.4%) |
Cигнал(-) | 217 (43.4%) | 218 (43.6%) | 428 (85.6%) |
Обучение и тестирование имеют сходные распределния, в то время как негативный контроль заметно сдвинут влево. Ошибки первого и второго рода при тестировании велики (43,6% и 14,4% соответственно).
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.08 | -0.10 | -0.10 | -0.09 | 0.20 | 0.03 | -0.12 | 1.76 | 0.00 | 0.00 | -0.08 | -0.03 | -0.12 |
T | -0.10 | -0.14 | -0.10 | -0.13 | -0.15 | -0.15 | -0.15 | 0.00 | 1.76 | 0.00 | -0.15 | -0.14 | -0.08 |
G | 0.08 | 0.32 | 0.10 | 0.09 | 0.36 | -0.03 | 0.16 | 0.00 | 0.00 | 2.29 | 0.53 | -0.02 | 0.22 |
C | 0.17 | 0.08 | 0.19 | 0.23 | -0.10 | 0.29 | 0.42 | 0.00 | 0.00 | 0.00 | -0.06 | 0.33 | 0.08 |
IC(j) | 0.07 | 0.16 | 0.08 | 0.11 | 0.31 | 0.15 | 0.32 | 1.76 | 1.76 | 2.29 | 0.24 | 0.14 | 0.10 |
Была получена матрица информационного содержания и построено LOGO по файлу в сервисе Web Logo 3.
Для выполнения поиска сайтов GAATTC мною был написан скрипт, которому на вход был дан файл, содержащий полный геном Escherichia coli O157:H7 str. Sakai . В рузельтате было найдено 397 таких сайтов, при ожидании 668. Это отличие значимо, так как p-value = 3.8541081254219834e-30