Практикум 8
или "... обгоняю, подрезаю, все СИГНАЛЯТ БИП-БИП"
Сигналы и мотивы
Описание G-квадруплексного сигнала
G-квадруплексы (или кратко G4) представляют собой разновидность неканонической четырехцепочечной ДНК, которые формируются гуанин-богатыми последовательностями и складываются в многоуровневую (минимально из трех уровней) конструкцию, состоящую из G-тетрад. В большинстве случаев G4 мотивы локализованы в консервативных регуляторных участках генома, в том числе в промоторах онкогенов, оказывая влияние на их уровень экспрессии. Способность данных последовательностей формировать G4 в геноме сильно снижена из-за термодинамической нестабильности, приводящей к преимущественному образованию двухспиральной ДНК. На равновесие дуплекс-квадруплекс может оказывать влияние большое количество факторов: длина петель между G-тетрадами, наличие стабилизирующих белков и низкомолекулярных лигандов, связывающихся с квадруплексом. Смещение данного равновесия в сторону образования квадруплекса влияет на различные клеточные процессы, в том числе на канцерогенез, т.к. затрудняет связывание транскрипционных факторов с промотором. Минимальная последовательность, необходимая для формирования G-квадруплекса: NGGGNGGGNGGGNGGGN, где N - один или несколько нуклеотидов. Сигнал адресован различным транскрипционным факторам и другим белковым молекулам и комплексам, участвуя в их взаимодействии с ДНК и РНК. В зависимости от типа квадруплекса и конкретного белка данное взаимодействие упрощается или, наоборот, усложняется. Эффективность сигнала сильно зависит от клеточных условий и низкомолекулярных лигандов, взаимодействующих с квадруплексом. Так, одновалентные и двухвалентные ионы металлов, а также лиганды с ароматической р-системой стабилизируют квадруплексы, снижая уровень экспрессии, если данный квадруплекс находится в промоторе. Это дает простор для исследований различных низкомолекулярных соединений и их влиянию на различные квадруплексы, как способ борьбы с определенными видами раковых заболеваний.
Рис.1. Схематическое изображение внутримолекулярных G4, различающихся ориентацией цепей в квадруплексной коре; желтым цветом обозначены гуанозины в син-конформации, зеленым цветом – в анти-конформации (а). Параллельный G4, в котором приведена структура G-тетрад и участки связывания ионов калия (черные кружки) (б). Типы петель в квадруплексе, которые соединяют G-тракты (в)
Ссылка на статью: тык
Построение PWM для последовательностей Шайна-Дальгарно
Для данного задания очевидным образом был выбран Python, так как он позволяет обрабатывать данные в автономном режиме. Я решила сделать два задания из списка предоставленных: "Последовательность Шайна-Дальгарно перед стартом трансляции генов в геноме штамма E.coli" и "Последовательность Шайна-Дальгарно перед стартом трансляции генов в геноме бактерии другого вида" (пункты d и e, соответственно).
Для начала были скачаны геномы Escherichia coli, Staphylococcus aureus и Mycobacterium smegmatis. Затем они были обработаны так, чтобы каждый файл с хромосомой (он же файл с геномом) представлял из себя всего две строки (это нужно для удобства обработки в будущем). Воспользовавшись написанными скриптами и таблицей с координатами генов, которая представлена в базе данных, мною были получены файлы с последовательностями, которые должны были содержать участок Шайна-Дальгарно. В первой версии было решено рассмотреть более длинные участки, так как для E.coli утверждается, что последовательность Шайна-Дальгарно на самом деле не вносит существенного вклада. Ссылка на статью: тык. Во второй версии окно рамки было сужено для того, чтобы попробовать рассмотреть именно последовательность Шайна-Дальгарно. Затем на основе части последовательностей были построены PWM для каждой из бактерий, а остальные впоследствии использовались для получения весов положительного контроля. Для отрицателього же контроля использовались просто случайные последовательности (их получили просто путем рандомной генерации).
Так как рассматривались сразу три бактерии, то и количество ссылок на полученные данные в три раза больше :)
!Дисклеймер! Здесь и далее будут введены следующие сокращения: MS - Mycobacterium smegmatis, SA - Staphylococcus aureus, ну и стандартно, Ecoli - Escherichia coli
Коды для выполнения работы:
Файлы с геномами:
Файлы с последовательностями, которые должны содержать последовательность Шайна-Дальгарно:
Ecoli_posl.txt, MS_posl.txt, SA_posl.txt
Результаты PWM и IC:
Ecoli_PWM.tsv, Ecoli_IC.tsv, MS_PWM.tsv, MS_IC.tsv, SA_PWM.tsv, SA_IC.tsv
Гистограммы весов
Рис.2. Гистограммы весов последовательностей обучающей, тестовой и негативной выборок для Escherichia coli, Mycobacterium smegmatis и Staphylococcus aureus, соответственно
Используя сервер WebLOGO 3, был построен LOGO этого сигнала для всех трех бактерий.
Рис.3. LOGO для последовательности Шайна-Дальгарно бактерий Escherichia coli, Mycobacterium smegmatis и Staphylococcus aureus, соответственно
Выводы
Для Escherichia coli мы действительно подтвердили, что в грам-отрицательных бактериях роль индуктора трансляции выполняет AU-богатый участок (если построить консенсус, то там будут преобладать тимины и аденины, которые в мРНК станут аденинами и урацилами, соответственно). Также можно говорить о том, что у Staphylococcus aureus была найдена последовательноть Шайна-Дальгарно, хотя и немного кривая, ее реализация будет не совсем привычной: будет происходить образование неканонической пары G-T (она вполне имеет место быть даже в цепи ДНК, так что в таком комплексе, как РНК-РНК она тоже может встретиться), также у данной бактерии еще большее преобладание аденинов в окружении последовательности Шайна-Дальгарно, что потенциально тоже должно давать свой вклад в индукцию трансляции.
Если посмотреть на веса, которые были получены при предсказаниях, то будет видно, что они все отрицательные. Такое вызвано, скорее всего, тем, что на самом деле данный сигнал не такой уж и сильный, то есть он служит индуктором трансляции, однако без него она тоже спокойно идет. Просто медленнее.