Поиск сигналов

На данной странице выложены все задания блока 3. При нажатии на ссылку вы перемещаетесь в соответствующее место на странице.

Системы рестрикции-модификации в двух штаммах бактерии Citrobacter koseri

Для сравнения наборов систем рестрикции-модификации я использовала грамотрицательную бактерию Citrobacter koseri. Геномы были взяты из базы данных NCBI (CP000822.1) и из данных о секвенировании метагенома кишечника человека. Стоит отметить, что геном, лежащий в NCBI, был получен при секвенировании образца, выделенного из мозга младенца, болеющего неонатальным менингитом.
Ссылки на геномы: полный геном и набор контигов из метагенома.
Для анализа использовался список изветсных сайтов, узнаваемых ферменты систем рестрикции-модификации. Всего в этом списке представлено 99 сайтов.
После использования веб-сервиса, реализующего метод Карлина, для генома из NCBI было получено 24 сайта, для которых контраст (отношение наблюдаемого числа сайтов в геноме к ожидаемому) меньше 0,78. По ссылкам доступны файл с результатами и файл с отобранными сайтами.
При анализе метагенома аналогичным способом было найдено 9 сайтов. Файлы также доступны по ссылкам: результаты и отобранные сайты.
По полученным результатам была составлена таблица Excel. В ней на двух листах представлены результаты, выданные программой для генома и контигов из метагенома (подписаны "genome" и "metagenome" соответственно). При этом сайты отсортированы по увеличению контраста, а розовым выделены те, контраст у которых меньше 0,78. Также на листе "genome" синим отмечены сайты, общие в геноме и метагеноме, а желтым - сайты, найденные только в метагеноме.

Можно сделать следующие выводы:

  • в метагеноме в целом меньше сайтов, чем в полном геноме. Это может быть объяснено тем, что при секвенировании и сборке генома были утерены некоторые участки или заменены некоторые нуклеотиды, что привело к разрыву или исчезновению сайтов. Также некоторые из данных систем могли быть утеряны в ходе эволюции.
  • сайты GGCGCC и TCTAGA найдены только в метагеноме. Что интересно, последний сайт в полном геноме имеет контраст 1,187 (наибольший из обнаруженных). Видимо, штамм, выделенный из кишечника человека, приобрел данные системы рестрикции-модификации, возможно, путем горизонтального переноса от бактерий-соседей.
  • возможно, штамм Citrobacter koseri из кишечника в целом имеет большую вероятность заразиться бактериофагом или мутировать, поэтому для него более важным является сохранность и эффективная работа систем рестрикции-модификации.

Поиск последовательностей Шайна-Дальгарно в геноме бактерии Nostoc sp.

Последовательность Шайна-Дальгарно (SD) - участок связывания малой субъединицы прокариотической рибосомы с мРНК, обычно расположенный за несколько нуклеотидов до начала трансляции. Считается, что у прокариот SD присутствует в начале большинства генов, и мутации в ее консенсусной последовательности GGAGG или в комплементарном ей участке 16s рРНК приводят к подавлению трансляции1.
В данном практикуме нужно было найти все последовательности SD в геноме бактерии или археи. Я работала с цианобактерией Nostoc sp., штамм PCC 7524.
Литературных данных о частоте встречаемости SD в геноме данной бактерии нет, однако множество исследований было проведено для других цианобактерий. В одной из работ последовательности GAGG, GGAG и AGGA (ключевые компоненты SD) были найдены перед 48,6% генов в Synechocystis sp.2. В другом исследовании, проведенном для Prochlorococcus sp., было найдено только 8,7% генов, предположительно содержащих SD, что свидетельствует о наличии других способов инициации трансляции у этой бактерии. В принципе, кроме SD известно еще два механизма инициации: с помощью рибосомального белка S1 и с участием мРНК, не имеющих 5'UTR, которые способны связываться с комплесом рибосомы с инициаторной тРНК. Оба этих механизма могут реализовываться в цианобактериях: мРНК Prochlorococcus sp. имеют очень короткие 5'UTR, а для Synechococcus elongatus было показано участие белка S1 в инициации трансляции вне зависимости от наличия SD3. Общее исследование содержания SD в геномах различных типов бактерий и архей показало, что у цианобактерий доля генов, имеющих SD, является одной из самых низких1.

Сначала с сервера NCBI я скачала сборку генома данной бактерии - кольцевую хромосому CP003552.1. Затем были отобраны хорошие гены - достаточно длинные и с адекватной аннотацией (с определенной точностью известен продукт белка). Так как геном Nostoc sp. большой (более 6Mb), генов в нем также много - 5355, причем их длина варьирует от 90 до 30000 п.н. В результате была составлена выборка из 996 генов (чтобы добиться нахождения достоверных мотивов). Для каждого гена с помощью скрипта был вырезан участок от -16 до -1 позиции до начала кодирующей последовательности.
С помощью программы MEME был осуществлен поиск мотивов de novo в вырезанных фрагментах. Установленные параметры: длина мотива от 4 до 6, 0 или 1 мотив на последовательность, искать мотив на той же цепи. Сначала я произвела поиск 3 наилучших мотивов для сравнения e-value. Результат представлен на рисунке 1.

Рисунок 1. Три мотива, найденных программой MEME в промоторных областях генов бактерии Nostoc sp..

Как видно на рисунке 1, самый лучший мотив (с e-value 9.2e-026), значительно более достоверный, чем остальные, и является искомой последовательностью SD.
Затем я произвела поиск в MEME с теми же параметрами, но уже только одного наилучшего мотива. В результате была получена позиционная матрица весов (PWM), представленная на рисунке 2. Также я сохранила лого найденного MEME мотива (рисунок 3).

Рисунок 2. Позиционная весовая матрица (PWM) мотива Шайна-Дальгарно, построенная программой MEME.

Рисунок 3. Лого найденной последовательности Шайна-Дальгарно.

С помощью программы FIMO я произвела поиск найденного мотива для всех остальных генов бактерии Nostoc sp. Для этого были вырезаны участки от -26 до -1 позиции до начала кодирующей последовательности. Длина участков была увеличена, чтобы немного снизить вероятность ошибок поиска для неправильно аннотированных генов.
В результате для 5355 генов было найдено 11068 мотивов (с p-value меньше 0.1). Такое большое число находок может быть связано с наличием случайных последовательностей, так как сигнал SD достаточно слабый. Среди найденных 427 последовательностей (7,97%) имело p<0.001, 1174 последовательностей (21,92%) - p<0.01, 4221 последовательностей (78,82%) - p<0.03 и 6397 последовательностей - p<0.05. По идее, SD должна встречаться в большинстве генов, поэтому для анализа я выбрала границу p-value 0.03, однако также проводила те же действия для p-value < 0.001 и 0.01, так как (по литературным данным) у цианобактерий содержание SD значительно ниже. Результаты работы FIMO и анализ полученных данных представлен в файле fimo.xslx.

Во-первых, были построены гистограммы распределения начала найденных SD от страта трансляции. Полученные изображения представлены на рисунках 4а-в.

Рисунок 4а. Гистограмма распределения начала найденных SD от страта трансляции для порого p-value 0.001 (7,97% генов). Числа на оси X означают расстояние от начала SD до старта трансляции (по идее, их стоит рассматривать как отрицательные числа, так как SD расположена до начала кодирующей рамки).

Рисунок 4б. Гистограмма распределения начала найденных SD от страта трансляции для порого p-value 0.01 (21,92% генов).

Рисунок 4в. Гистограмма распределения начала найденных SD от страта трансляции для порого p-value 0.03 (78,82% генов).

В основном старт SD приходится на -11 нуклеотид от начала трансляции (и конец, соответсвенно, на -7). Это в целом согласуется с литературными данными, однако точно определить долю генов, содержащих SD, достаточно сложно. С одной стороны, полученные результаты могут указывать и на высокую долю таких генов, и на относительно низкую, что может быть связано с нахождением случайных мотивов. С другой стороны, литературные данные высказываются в пользу второго варианта (по крайней мере, генов, содержащих SD, должно быть не больше половины).
Также для найденных мотивов было построено лого (с помощью сайта LOGO). Наиболее показательным является лого для p<0.01 (рисунок 5).

Рисунок 5. Лого последовательности Шайна-Дальгарно, построенное по находкам этого мотива в геноме Nostoc sp. (для порога p-value 0.01). Изображение получено с помощью сайта LOGO.

______________________________________________________

Ссылки на использованную литературу:
1. So Nakagawaa et al., Dynamic evolution of translation initiation mechanisms in prokaryotes, PNAS, 2010 (full text)
2. Takashi Sazuka & Osamu Ohara, Sequence Features Surrounding the Translation Initiation Sites Assigned on the Genome Sequence of Synechocystis sp. Strain PCC6803 by Amino-terminal Protein Sequencing, DNA Research, 1996 (full text)
3. Karsten Voigt et al., Comparative transcriptomics of two environmentally relevant cyanobacteria reveals unexpected transcriptome diversity, The ISME Journal, 2014 (full text)

Определение сайтов связывания транскрипционного фактора в участке хромосомы человека

Для начала полученные данные по ChIP-seq анализу были проверены с помощью программы FastQC. Результаты представлены по ссылке. График, отображающий качество нуклеотидов в чтениях, представлен на рисунке 6. Так как качество примерно одинаково по всей длине чтения и не сильно ухудшается к концу, а сами чтения достаточно короткие (36 нуклеотидов), обработка программой Trimmomatic не проводилась.

Рисунок 6. Распределение качества нуклеотида в риде по положению в риде. Иизображение получено с помощью анализа качества чтения программой FastQC.

Затем чтения были откартированы на геном человека hg19 (заранее проиндексированный) с помощью команды bwa mem ../hg19/GRCh37.p13.genome.fa chipseq_chunk21.fastq > chipseq_chunk21.sam. Далее были использованы следующие команды: samtools view -bSo chipseq_chunk21.bam chipseq_chunk21.sam (переводит выравнивание чтений с референсным геномов в бинарный формат, с которым потом работают программы), samtools sort chipseq_chunk21.bam -T chip_temp -o chipseq_chunk21.sorted.bam (сортирует выравнивание по координате начала чтения в референсе), samtools index chipseq_chunk21.sorted.bam (индексирует отсортированный файл), samtools idxstats chipseq_chunk21.sorted.bam > chipseq_chunk21.idxstats (записывает в файл chipseq_chunk21.idxstats информацию о количестве чтений, откартированных на каждый элемент генома) и samtools view -c chipseq_chunk21.sorted.bam (показывает, сколько чтений в сумме было откартированно на все элементы генома).
Всего было 4305 чтений, все они были откартированы на геном (рисунок 7). При этом распределение чтений по хромосомам (рисунок 8) позволяет предположить, что я работаю с участками 9 хромосомы человека.

Рисунок 7. Число чтений, откартированных на геном, по результатам работы описанных программ.

Рисунок 8. Распределение числа откартированных чтений по хромосомам. Больше всего чтений откартировано на 9 хромосому (3999 ридов, что составляет 93% всех ридов).

Далее я произвела поиск пиков с помощью программы MACS. Так как пиков было очень мало, использовалась команда macs2 callpeak -t chipseq_chunkX.sorted.bam -n chipseq_chunk21 --nomodel. Были получены следующие файлы: chipseq_chunk21_peaks.narrowPeak, chipseq_chunk21_peaks.xls и chipseq_chunk21_summits.bed.
Всего найдено 3 пика. Общее их расположение представлено на рисунке 9, а каждый пик в отдельности - на рисунках 10-12. Длина пика указана в подписи к соответствующему рисунку.

Рисунок 9. Расположение найденных пиков в геноме человека (сборка hg19). Представлен участок 9 хромосомы. Изображение получено с помощью геномного браузера UCSC.

Рисунок 10. Увеличенный первый пик, занимающий позиции с 90,131,201 по 90,131,451 и имеющий длину 251 nt.

Рисунок 11. Увеличенный второй пик, занимающий позиции с 90,328,381 по 90,328,707 и имеющий длину 327 nt.

Рисунок 12. Увеличенный третий пик, занимающий позиции с 90,407,740 по 90,408,031 и имеющий длину 292 nt.

Первый пик попадает внутрь гена DAPK1 (Death-associated protein kinase 1). Второй пик находится между генами DAPK1 и CTSL1 (Cathepsin L1). Третий пик расположен после гена CTSL3P (cathepsin L family member 3, pseudogene).

Также для всех пиков я изучила их расположение относительно других известных транскрипционных факторов, данные для которых были получены в ходе других экспериментов и занесены в базу, которую можно визуализировать в геномном браузере. Результаты для 1, 2 и 3 пика представлены на риснуке 13. Можно заметить, что данный транскрипционный фактор колокализуется с другими факторами (также имеющими достаточно размытые сайты взаимодействия). К тому же, в области посадки этого фактора наблюдается изменение насыщенности метки H3K27ac.

Рисунок 13а. Первый пик. Представлены данные по другим экспериментам для различных транскрипционных факторов.

Рисунок 13б. Второй пик.

Рисунок 13в. Третий пик.

Поиск сигналов TATA-бокс связывающего белка (TBP) в геноме человека

TBP является одним из ключевых ДНК-узнающих белков, необходимых для образования на промоторах генов комплекса TFIID и инициации транскрипции с помощью Pol II. Тем не менее, лишь часть промоторов имеет сигнал TATA-box, связываемый TBP. Консенсусная последовательность для связывания TBP - TATAWAAR.
С помощью геномного браузера UCSC я проанализировала результаты ChIP-seq анализа для TBP в стволовых эмбриональных клетках человека H1-hESC. Эксперимент проводился с использованием антител кролика. Было описано три гена, транскрипция которых инициируется с помощью TBP, и один - без сигнала TATA-box в промоторной области.

На рисунке 14 представлен ген, перед которым нет сигнала TATA-box (все сигналы в окрестности промотора гена примерно одинаковы и могут быть рассмотрены как шум). Это ген ATP2B2, кодирующий АТФазу, транспортирующую Ca2+. Данный ген находится на 3 хромосоме (координаты 10,365,707 - 10,547,268, длина гена 181,562 п.о., он закодирован на (-)-цепи и содержит 23 экзона). На рисунке 14а показана вся промоторная область, на рисунке 14б - увеличенный участок, в котором должен был бы находиться сигнал TATA-box (с разрешением до отдельных нуклеотидов).

Рисунок 14а. Промоторная область гена ATP2B2.

Рисунок 14б. Последовательность нуклеотидов в промоторной области гена ATP2B2.

На рисунках 15а и 15б представлены аналогичные изображения промоторной области гена H2AFX, кодирующего один из вариантов второго гистона. Ген H2AFX расположен на 11 хромосоме (координаты 118,964,585 - 118,966,177, длина 1593 п.о., закодирован на (-)-цепи и содержит 1 экзон).

Рисунок 15а. Промоторная область гена H2AFX.

Рисунок 15б. Последовательность нуклеотидов в промоторной области гена H2AFX. Зеленой рамкой обведен сайт связывания TBP.

Продукт гена DNMT1 участвует в метилировании цитозинов по 5 положению. Этот процесс необходим для регуляции уровней экспрессии генов, так как в промоторных областях многих генов находятся CpG-островки. Ген DNMT1 расположен на 19 хромосоме (координаты 10,244,022 - 10,305,755, длина 61,734 п.о., закодирован на (-)-цепи и содержит 40 экзонов). Его промоторная область представлена на рисунках 16а и 16б.

Рисунок 16а. Промоторная область гена DNMT1.

Рисунок 16б. Последовательность нуклеотидов в промоторной области гена DNMT1. Зеленой рамкой обведен сайт связывания TBP.

Еще один ген, транскрипция которого зависит от TBP, - это CDC40, участвующий в регуляции прохождения клетки по клеточному циклу (рисунок 17). Расположен на 6 хромосоме (координаты 110,501,587 - 110,553,422, длина 51,836 п.о., закодирован на (+)-цепи и содержит 15 экзонов).

Рисунок 17а. Промоторная область гена CDC40.

Рисунок 17б. Последовательность нуклеотидов в промоторной области гена CDC40. Зеленой рамкой обведен сайт связывания TBP.

В двух из трех описанных случаев сигнал TATA-box расположен перед началом гена на расстоянии около 20 нуклеотидов. В третьем случае сайт связывания TBP расположен уже внутри самого гена. В целом, в геноме встречается расположение TATA-box и внутри, и перед геном, по крайней мере, по результатам данного анализа ChIP-seq.

© Наталия Кашко, 2016