Сигналы и мотивы, часть 1
МикроРНК let-7
В чем состоит сигнал: МикроРНК let-7 представляет собой небольшую некодирующую РНК, которая регулирует экспрессию генов путем связывания с мРНК-мишенями и вызывая их деградацию или репрессию трансляции.
Кому адресован: Клетки организма, содержащие мРНК генов-мишеней для let-7.
Предназначение: Снижение экспрессии генов-мишеней, связанных с ростом и выживаемостью клеток.
Эффективность сигнала: Let-7 играет критическую роль в контроле пролиферации и дифференцировки клеток, и его дисрегуляция связана с различными заболеваниями, включая рак. Таким образом, можно сказать, что сигнал высокоэффективен.
Использованные источники:
1. Bartel, David P. “MicroRNAs: genomics, biogenesis, mechanism, and function.” Cell 116.2 (2004): 286-295.
2. Ambros, Victor. “MicroRNA biogenesis: a highly regulated process.” Nature reviews Molecular cell biology 3.1 (2002): 43-51.
Построение PWM
В качестве сигнала для описания была выбрана последовательность Козак в геноме человека. Для выполнения задания был использован ipynb Кузенкова Кирилла c изменённым сидом для получения других выборок. Файлы:
Получившиеся: Train куда пошли 40 из 100 случайно выбраных последовательностей из таблицы с человеческими генами, test куда пошли остальные 60 и negative control в котором содержатся 60 последовательностей из окружения нестартовых ATG-триплетов в геноме Sars-CoV-2.
По материалам для обучения была построена позционная весовая матрица (PWM):
|
Таблица 1: Позиционная весовая матрица |
Для подсчёта логарифма отношения чтобы устраненить нулевые частоты использовались pseudocounts, равные 0.1 для всех букв. Апостериорные частоты появления оснований были вычислены в соответствии с содержанием GC в человеческом геноме, равным 0,404.
Далее был произведён подсчёт весов с помощью PWM для train, test (Positive Control) и Negative Control. По полученным данным была построена гистограмма весов:
|
Рис. 1: Гистограмма распределения весов |
Негативный контроль визуально отделён по знечениям весов от train и test групп. Выберем порог весов, равный 3.7. Этот порог довольно удовлетворительно отделяет отрицательный контроль от положительного.
После была построена таблица с количеством последовательностей, отобранных по вышеопределённому порогу:
|
Таблица 2: Результаты проверки находок при пороге 3,7 |
Несмотря на попадание в "(-)-сигнал" группу некоторых последовательности из train (которые точно является сигналами), с задачей разделения негативного и положительного контролей порог справился.
Вычисление информационного содержания и построение LOGO
C помощью скрипта также была получена матрица информационного содержания:
|
Таблица 3: Матрица информационного содержания |
А так же с использованием сервиса WebLOGO построено LOGO:
|
Рис. 2: LOGO для последовательности Козак в геноме человека |
В результате было обнаружено, что в положении 5 преобладали пуриновые нуклеотиды, а в положениях 8-10 был обнаружен стартовый кодон ATG.
Сайты GAATTC в геноме E.coli
Было найдено 839 сайтов последовательности GAATTC в геноме E. coli, что оказалось меньше ожидаемого числа - 1334, p-value=2.61e-48 (биномиальное распределение). Таким образом, различия между наблюдаемым и ожидаемым количеством сайтов GAATTC статистически значимы. На основе этого можно утверждать, что GAATTC на самом деле встречается реже, чем предполагалось.
|