Задание 1

ТАТА-бокс

Последовательность 5'-TATAAA-3', называемая ТАТА-бокс или бокс Хогнесса - консервативный сайт связывания факторов транскрипции в промоторной области эукариот. Располагается, как правило, на 30 нуклеотидов выше сайта начала транскрипции. Адресован фактору TFIID, запускающему процесс привлечения РНК-полимеразы II и начало транскрипции. Высокоэффективен - TFIID всегда связывается с ним при наличии, также последовательность из слабых А-Т связей облегчает расплетание цепи ДНК.

TATA element recognition by the TATA box-binding protein has been conserved throughout evolution

Genome-wide analysis of rice (Oryza sativa L. subsp. japonica) TATA box and Y Patch promoter elements

Задание 2

Для выполнения всего задания был написан многоступенчатый скрипт. Оставляю ссылку на веб-блокнот или файл, если вам так удобнее.

Для построения таблицы весов были выбраны 40 участков вокруг ATG кодона случайных генов первой хромосомы человека. Псевдоотстчеты были взяты равными 0,1 для каждого нуклеотида, средний GC-состав сборки человеческого генома был найден в NCBI как 41%.

Таблица весов PWM:

Положительный и отрицательный контроли

Далее по тому же механизму из той же базы были взяты 60 последовательностей на положительный контроль. На отрицательный контроль - 60 последовательной содержащих ATG, не являющихся старт-кодонами, из генома SARS-CoV-2:

Их score значения, рассчитанные по таблице из предыдущего задания представлены на картинке справа - мы можем видеть, что в среднем окружение ATG из генома человека набирает значительно выше очков, чем из генома SARS-CoV-2, что говорит о правильном составлении таблицы весов.

Задание 3

Таблица информационного содержания полученная по тем же последовательностям:

Последовательности были загружены в WebLOGO3 для получения наглядной визуализации предполагаемой последовательности Козак: