Практикум 8

Сигналы в геноме

Задание 1

Задание 2

В первом семестре, на курсе по Python, мы однажды искали самые распространенные 6-меры в 20 нуклеотидах перед старт-кодоном в геномах трех бактерий: E. coli, Mycoplasma pneumoniae и некоторой Cand. Gracilibacteria (Практикум 13, задание 6). Этот практикум напомнил мне о том задании, и я решил вернуться к получившимя тогда результатам.

Самыми распространенными оказались два типа 6-меров: напоминающие последовательность Шайна-Дальгарно (в геноме E. coli) или состоящие только из A и T (в геноме Gracilibacteria). У M. pneumoniae среди самых распространенных оказились и те, и другие. Тогда я решил (видимо, ошибочно), что AT-последовательности — это Прибнов-бокс. На самом деле точка начала транскрипции расположена дальше от старт-кодона (рис. 1). Для большинства мРНК 5'-UTR имеет длину 20–40 нуклеотидов, а так как Прибнов-бокс расположен еще на 10 нуклеотидов дальше, он может попасть в ближайшие 20 нуклеотидв к старт-кодону только для генов с самым коротким UTR, судя по рис. 1 в геноме E. coli таких около 30 (да, нас интересует не E. coli, а наоборот другие бактерии, но порядок такой же, я думаю).

utr_length
Рис. 1. Распределение длин 5'-UTR E. coli. Разными линиями обозначены два разных датасета. Из Mendoza-Vargas et al., 2009

Сейчас я решил сначала просто посмотреть на то, как выглядят окрестности старт-кодона у этих бактреий с помощью Logo, чтобы решить, с какой я буду работать дальше. Еще я добавил к ним Photobacterium gaetbulicola, про геном которой писал мини-обзор (почему нет?). Результаты показаны на рис. 2.

long_logo
Рис. 2. Окрестности старт-кодона у рассматриваемых бактерий. Для лого использовал все кодирующие последовательности. В левом верхнем углу помещена последовательность 3'-конца 16S рРНК соответсвующей бактерии и комплементарная ей, с послдеовательностью Шайна-Дальгарно

Кстати, о Logo: пока я их разглядывал, я понял, что объяснение, что значат высоты букв, данное в лекции — неправильное. Там оно звучит так: высота буквы равна информационному содержанию этой буквы в предположении, что буквы встречаются с равной частотой; если информационное содержание отрицательное, то буква не изображается. Это предполагает, что информационное содержание рассчитывается по Шнайдеру, т.к. по Шеннону оно не может быть отрицательным, если базовые частоты букв равны. Но в большинстве колонок изображены все четыре буквы, а информационное содержание по Шнайдеру очевидно не может быть положительным для всех четырех букв, потому что и числители, и знаменатели в дроби под логарифмом должны давать в сумме единицу. Пока я искал сервис, чтобы нарисовать Logo, я нашел довольно много вариаций (см, напр., kplogo.wi.mit.edu), но такого определения, как в лекции, нигде не видел. Стандартное Logo, в том числе на рис. 2, изображается так: высота всей колонки прирваниваются к суммарному информационому содержанию этой колонки, а внутри колонки относительные высоты букв равны их частотам (вставь ссылку). Соответственно, в колонке всегда будут изображены четыре буквы, только если какие-то из них не были настолько редкими, что окажутся на визуализации тоньше пикселя.

Я прочитал статью, на которую Андрей Владимирович ссылался в лекции, про последовательность Козак у бактерий (ссылка). В нескольких предложениях я пересказал бы ее так:

Во-первых, сила SD у гена (измеренная как −ΔG образования дуплекса с ASD) все-таки коррелирует с тем, насколько мРНК оказывается занята рибосомами, вопреки результатам предыдущих работ.

Во-вторых, SD не нужна для определения верного старт-кодона. Для того, чтобы AUG служил местом инициации транскрипции, необохдима не последовательность Шайна-Дальгарно, а A-богатая последовательность перед старт-кодоном (рис. 3). Видно, что после старт-кодона тоже есть A-богатый участок... Сами авторы не называют это последовательностью Козак, но проводят аналогию в обсуждении.

ecoli_no_sd
Рис. 3. Так выглядит Logo окрестностей старт-кодона генов E. coli, у которых нет SD. Из Saito et al., 2020

В общем, на Logo, постороенном для всех генов, тоже можно заметить обогащение A, особенно сразу после старт-кодона. (рис. 2., E. coli).

Кроме того, авторы приводят просто набор Logo для нескольких бактерий, когда обсуждают полученные результаты (рис. 4). Мне показалось, что здесь он тоже будет уместен — интересно же сравнить!

many_logo
Рис. 4. Еще немного Logo. Из Saito et al., 2020

Ну, с E. coli авторы разобрались, и воспроизводить то же самое, только хуже, будет не очень интересно. Окрестности старт-кодона P. gaetbulicola оказались удивительно похожими на E. coli (рис. 2), особенно если сравнить с тем, насколько разными они могут быть внутри одного рода для Mycoplasma (рис. 4).

У M. pneumoniae видно некоторое обогащение A перед старт-кодоном и чуть более сильное после. Учитывая, что у нее всего 15 % генов имеют SD (ссылка) (на лого для всех генов этого вообще не видно), это очень хорошо согласуется с результатами обсуждаемой статьи. Посмотреть сюда подробнее могло бы быть интересно, но микоплазма все-таки меркнет в сравнении с Gracilibacteria — ее окрестности старт-кодона выглядят просто удивительно и не похожи ни на что другое, и анализировать дальше я буду, конечно, ее.

Первая моя мысль, когда я это увидел, была про то, что у нее может быть просто другая ASD, а значит это может оказаться SD, но нет — ее ASD отличается, но не настолько, SD все равно должна состоять в основном из G.

Следующее замечание, которое можно сделать — в геноме Gracilibacteria низкое содержание GC, 28,8 %. У E. coli и P. gaetbulicola оно практически равно 50 %, поэтому для них...

Потом я нашел библиотеку на Python, которая рисует лого по произвольной таблице с высотами букв, поэтому я решил нарисовать его по определению из лекции, но учтя реальные базовые частоты букв, чтобы посмотреть, насколько реально эти участки обогащены A и T. Кроме того, я взял еще чуть более широкую окрестность (рис. 5).

long_logo
Рис. 5

Видно, что, во-первых, действительно обогащены. Во-вторых, информационное содержание падает после ≈23 нуклеотидов upstream от старт-кодона, т.е. это будто бы дейтсвительно мотив, ассоциированный со старт-кодоном. В-третьих, видно, что после примерно четырех кодонов вглубь гена исчезает обогащение A и появляется другой очень милый паттерн: первая позиция кодонов обогащна G, третья — A.

Таким образом, я назначу участок −22...+12 «последовательностью Козак» и буду работать с ним.

Я случайно разделил CDS пополам (получилось по 598), нашел все ATG внутри CDS и выбрал из них столько же. (Я не брал ATG, которые лежали близко к границе CDS, потому что мне было лень). Так получились train, test и control. Построил по train PWM, посчитал веса для train, test и control, нарисовал гистограммы (рис. 6).

Теперь нужно выбрать порог. Выбирать буду так, чтобы итоговая табличка выглядела лучше всего, т.е. чтобы доля верно классифицированных последовательностей («accuracy») была максимальной. Для этого построю зависимость accuracy от выбранного порога (рис. 7).

hist
Рис. 6
threshold
Рис. 7

При значении порога в 3,89 84% последовательностей из test и control оказываются классифицированны правильно (табл. 1). (Но в чем тогда был смысл делить на train и test? Порассуждай о априорной вероятности).

Табл. 1.
Motif Train Test Control
+ 487 487 82
111 111 516