Сигналы и мотивы, часть 1

|На главную|

|Обо мне|

|Семестры|

|Заметки|

|Ссылки|

МикроРНК let-7

В чем состоит сигнал: МикроРНК let-7 представляет собой небольшую некодирующую РНК, которая регулирует экспрессию генов путем связывания с мРНК-мишенями и вызывая их деградацию или репрессию трансляции.

Кому адресован: Клетки организма, содержащие мРНК генов-мишеней для let-7.

Предназначение: Снижение экспрессии генов-мишеней, связанных с ростом и выживаемостью клеток.

Эффективность сигнала: Let-7 играет критическую роль в контроле пролиферации и дифференцировки клеток, и его дисрегуляция связана с различными заболеваниями, включая рак. Таким образом, можно сказать, что сигнал высокоэффективен.

Использованные источники:

1. Bartel, David P. “MicroRNAs: genomics, biogenesis, mechanism, and function.” Cell 116.2 (2004): 286-295.

2. Ambros, Victor. “MicroRNA biogenesis: a highly regulated process.” Nature reviews Molecular cell biology 3.1 (2002): 43-51.

Построение PWM

В качестве сигнала для описания была выбрана последовательность Козак в геноме человека. Для выполнения задания был использован ipynb Кузенкова Кирилла c изменённым сидом для получения других выборок. Файлы:

Использованные: Таблица с человеческими генами, геном Sars-CoV-2 и разметка ATG-триплетов необходимые для отобра 60 последовательностей в материал негативного контроля.

Получившиеся: Train куда пошли 40 из 100 случайно выбраных последовательностей из таблицы с человеческими генами, test куда пошли остальные 60 и negative control в котором содержатся 60 последовательностей из окружения нестартовых ATG-триплетов в геноме Sars-CoV-2.

По материалам для обучения была построена позционная весовая матрица (PWM):

Таблица 1: Позиционная весовая матрица

Для подсчёта логарифма отношения чтобы устраненить нулевые частоты использовались pseudocounts, равные 0.1 для всех букв. Апостериорные частоты появления оснований были вычислены в соответствии с содержанием GC в человеческом геноме, равным 0,404.

Далее был произведён подсчёт весов с помощью PWM для train, test (Positive Control) и Negative Control. По полученным данным была построена гистограмма весов:

Рис. 1: Гистограмма распределения весов

Негативный контроль визуально отделён по знечениям весов от train и test групп. Выберем порог весов, равный 3.7. Этот порог довольно удовлетворительно отделяет отрицательный контроль от положительного.

После была построена таблица с количеством последовательностей, отобранных по вышеопределённому порогу:

Таблица 2: Результаты проверки находок при пороге 3,7

Несмотря на попадание в "(-)-сигнал" группу некоторых последовательности из train (которые точно является сигналами), с задачей разделения негативного и положительного контролей порог справился.

Вычисление информационного содержания и построение LOGO

C помощью скрипта также была получена матрица информационного содержания:

Таблица 3: Матрица информационного содержания

А так же с использованием сервиса WebLOGO построено LOGO:

Рис. 2: LOGO для последовательности Козак в геноме человека

В результате было обнаружено, что в положении 5 преобладали пуриновые нуклеотиды, а в положениях 8-10 был обнаружен стартовый кодон ATG.

Сайты GAATTC в геноме E.coli

Был использован геном штама Escherichia coli strain CAU16175 и скрипт, написанный Георгием Муравьевым.

Было найдено 839 сайтов последовательности GAATTC в геноме E. coli, что оказалось меньше ожидаемого числа - 1334, p-value=2.61e-48 (биномиальное распределение). Таким образом, различия между наблюдаемым и ожидаемым количеством сайтов GAATTC статистически значимы. На основе этого можно утверждать, что GAATTC на самом деле встречается реже, чем предполагалось.

© Belov Leonid, 2013