Данный сигнал расположен примерно за 10 нуклеотидов до страт-кодона. Последовательность узнается комплиментарной последовательностью "анти-Шайн-Дальгарно" на 16S РНК, что очень сильно повышает эффективность биосинтеза белка. Консенсусом является последовательность AGGAGG.
Источник: J. Stephen Lodmell, Scott P. Hennelly. Conformational Dynamics within the Ribosome
Для данного задания очевидным образом был выбран Python, так как он позволяет обрабатывать данные в автономном режиме. Для начала был скачан весь геном человека и обработан, чтобы каждый файл с хромосомой представлял из себя всего две строки (это нужно для удобства обработки в будущем). Затем воспользовавшись написанными мною скриптами и таблицей с координатами генов, предоставленной нам в этом практикуме, я получил по 25 обучающих и тестовых файлов (по одному с каждой хромосомы) с последовательностями длины 13 (7 нуклеотидов до старт-кодона, старт-кодон и 3 нуклеотида за старт кодоном), а затем на основе первых была построена PWM, а вторые потм использовались для получения весов положительного контроля. Для отрицателього же контроля использовались все фрагменты (аналогичные по содержанию отобранным последовательностям из генома человека) из генома SARS-CoV-2, которые не являются старт кодонами.
Использованные скрипты:
Были получены две матрицы: PWM и IC. Также ниже представлены график распределения положительнго и отрицательного контроля, а также полученное LOGO для заданной последовательности.