|
|
|
На данной странице выложены все задания блока 3. При нажатии на ссылку вы перемещаетесь в соответствующее место на странице.
Системы рестрикции-модификации в двух штаммах бактерии Citrobacter koseri
Для сравнения наборов систем рестрикции-модификации я использовала грамотрицательную бактерию Citrobacter koseri.
Геномы были взяты из базы данных NCBI (CP000822.1)
и из данных о секвенировании метагенома кишечника человека. Стоит отметить, что геном, лежащий в NCBI, был получен при секвенировании
образца, выделенного из мозга младенца, болеющего неонатальным менингитом.
Можно сделать следующие выводы:
Поиск последовательностей Шайна-Дальгарно в геноме бактерии Nostoc sp.
Последовательность Шайна-Дальгарно (SD) - участок связывания малой субъединицы прокариотической рибосомы с мРНК, обычно расположенный
за несколько нуклеотидов до начала трансляции. Считается, что у прокариот SD присутствует в начале большинства генов, и мутации в ее
консенсусной последовательности GGAGG или в комплементарном ей участке 16s рРНК приводят к подавлению
трансляции1.
Сначала с сервера NCBI я скачала сборку генома данной бактерии - кольцевую хромосому
CP003552.1. Затем были отобраны хорошие гены - достаточно длинные и с
адекватной аннотацией (с определенной точностью известен продукт белка). Так как геном Nostoc sp. большой (более 6Mb),
генов в нем также много - 5355, причем их длина варьирует от 90 до 30000 п.н. В результате была составлена выборка из 996 генов
(чтобы добиться нахождения достоверных мотивов). Для каждого гена с помощью скрипта был вырезан участок от -16 до -1 позиции до
начала кодирующей последовательности.
![]() Рисунок 1. Три мотива, найденных программой MEME в промоторных областях генов бактерии Nostoc sp..
Как видно на рисунке 1, самый лучший мотив (с e-value 9.2e-026), значительно более достоверный, чем остальные, и является искомой
последовательностью SD.
![]() Рисунок 2. Позиционная весовая матрица (PWM) мотива Шайна-Дальгарно, построенная программой MEME. ![]() Рисунок 3. Лого найденной последовательности Шайна-Дальгарно.
С помощью программы FIMO я произвела поиск найденного мотива для всех остальных генов бактерии Nostoc sp. Для этого
были вырезаны участки от -26 до -1 позиции до начала кодирующей последовательности. Длина участков была увеличена, чтобы немного
снизить вероятность ошибок поиска для неправильно аннотированных генов.
Во-первых, были построены гистограммы распределения начала найденных SD от страта трансляции. Полученные изображения представлены на рисунках 4а-в. ![]() Рисунок 4а. Гистограмма распределения начала найденных SD от страта трансляции для порого p-value 0.001 (7,97% генов). Числа на оси X означают расстояние от начала SD до старта трансляции (по идее, их стоит рассматривать как отрицательные числа, так как SD расположена до начала кодирующей рамки). ![]() Рисунок 4б. Гистограмма распределения начала найденных SD от страта трансляции для порого p-value 0.01 (21,92% генов). ![]() Рисунок 4в. Гистограмма распределения начала найденных SD от страта трансляции для порого p-value 0.03 (78,82% генов).
В основном старт SD приходится на -11 нуклеотид от начала трансляции (и конец, соответсвенно, на -7). Это в целом согласуется с
литературными данными, однако точно определить долю генов, содержащих SD, достаточно сложно. С одной стороны, полученные результаты
могут указывать и на высокую долю таких генов, и на относительно низкую, что может быть связано с нахождением случайных мотивов.
С другой стороны, литературные данные высказываются в пользу второго варианта (по крайней мере, генов, содержащих SD, должно
быть не больше половины).
![]() Рисунок 5. Лого последовательности Шайна-Дальгарно, построенное по находкам этого мотива в геноме Nostoc sp. (для порога p-value 0.01). Изображение получено с помощью сайта LOGO.
Ссылки на использованную литературу:
Определение сайтов связывания транскрипционного фактора в участке хромосомы человекаДля начала полученные данные по ChIP-seq анализу были проверены с помощью программы FastQC. Результаты представлены по ссылке. График, отображающий качество нуклеотидов в чтениях, представлен на рисунке 6. Так как качество примерно одинаково по всей длине чтения и не сильно ухудшается к концу, а сами чтения достаточно короткие (36 нуклеотидов), обработка программой Trimmomatic не проводилась. ![]() Рисунок 6. Распределение качества нуклеотида в риде по положению в риде. Иизображение получено с помощью анализа качества чтения программой FastQC.
Затем чтения были откартированы на геном человека hg19 (заранее проиндексированный) с помощью команды
bwa mem ../hg19/GRCh37.p13.genome.fa chipseq_chunk21.fastq > chipseq_chunk21.sam. Далее были использованы
следующие команды: samtools view -bSo chipseq_chunk21.bam chipseq_chunk21.sam (переводит выравнивание чтений
с референсным геномов в бинарный формат, с которым потом работают программы), samtools sort chipseq_chunk21.bam -T
chip_temp -o chipseq_chunk21.sorted.bam (сортирует выравнивание по координате начала чтения в референсе),
samtools index chipseq_chunk21.sorted.bam (индексирует отсортированный файл), samtools idxstats
chipseq_chunk21.sorted.bam > chipseq_chunk21.idxstats (записывает в файл
chipseq_chunk21.idxstats информацию о количестве чтений,
откартированных на каждый элемент генома) и samtools view -c chipseq_chunk21.sorted.bam (показывает,
сколько чтений в сумме было откартированно на все элементы генома).
![]() Рисунок 7. Число чтений, откартированных на геном, по результатам работы описанных программ. ![]() Рисунок 8. Распределение числа откартированных чтений по хромосомам. Больше всего чтений откартировано на 9 хромосому (3999 ридов, что составляет 93% всех ридов).
Далее я произвела поиск пиков с помощью программы MACS. Так как пиков было очень мало, использовалась команда
macs2 callpeak -t chipseq_chunkX.sorted.bam -n chipseq_chunk21 --nomodel. Были получены следующие файлы:
chipseq_chunk21_peaks.narrowPeak,
chipseq_chunk21_peaks.xls и
chipseq_chunk21_summits.bed.
![]() Рисунок 9. Расположение найденных пиков в геноме человека (сборка hg19). Представлен участок 9 хромосомы. Изображение получено с помощью геномного браузера UCSC. ![]() Рисунок 10. Увеличенный первый пик, занимающий позиции с 90,131,201 по 90,131,451 и имеющий длину 251 nt. ![]() Рисунок 11. Увеличенный второй пик, занимающий позиции с 90,328,381 по 90,328,707 и имеющий длину 327 nt. ![]() Рисунок 12. Увеличенный третий пик, занимающий позиции с 90,407,740 по 90,408,031 и имеющий длину 292 nt. Первый пик попадает внутрь гена DAPK1 (Death-associated protein kinase 1). Второй пик находится между генами DAPK1 и CTSL1 (Cathepsin L1). Третий пик расположен после гена CTSL3P (cathepsin L family member 3, pseudogene). Также для всех пиков я изучила их расположение относительно других известных транскрипционных факторов, данные для которых были получены в ходе других экспериментов и занесены в базу, которую можно визуализировать в геномном браузере. Результаты для 1, 2 и 3 пика представлены на риснуке 13. Можно заметить, что данный транскрипционный фактор колокализуется с другими факторами (также имеющими достаточно размытые сайты взаимодействия). К тому же, в области посадки этого фактора наблюдается изменение насыщенности метки H3K27ac. ![]() Рисунок 13а. Первый пик. Представлены данные по другим экспериментам для различных транскрипционных факторов. ![]() Рисунок 13б. Второй пик. ![]() Рисунок 13в. Третий пик. Поиск сигналов TATA-бокс связывающего белка (TBP) в геноме человека
TBP является одним из ключевых ДНК-узнающих белков, необходимых для образования на промоторах генов комплекса TFIID и
инициации транскрипции с помощью Pol II. Тем не менее, лишь часть промоторов имеет сигнал TATA-box, связываемый TBP.
Консенсусная последовательность для связывания TBP - TATAWAAR.
На рисунке 14 представлен ген, перед которым нет сигнала TATA-box (все сигналы в окрестности промотора гена примерно одинаковы и могут быть рассмотрены как шум). Это ген ATP2B2, кодирующий АТФазу, транспортирующую Ca2+. Данный ген находится на 3 хромосоме (координаты 10,365,707 - 10,547,268, длина гена 181,562 п.о., он закодирован на (-)-цепи и содержит 23 экзона). На рисунке 14а показана вся промоторная область, на рисунке 14б - увеличенный участок, в котором должен был бы находиться сигнал TATA-box (с разрешением до отдельных нуклеотидов). ![]() Рисунок 14а. Промоторная область гена ATP2B2. ![]() Рисунок 14б. Последовательность нуклеотидов в промоторной области гена ATP2B2. На рисунках 15а и 15б представлены аналогичные изображения промоторной области гена H2AFX, кодирующего один из вариантов второго гистона. Ген H2AFX расположен на 11 хромосоме (координаты 118,964,585 - 118,966,177, длина 1593 п.о., закодирован на (-)-цепи и содержит 1 экзон). ![]() Рисунок 15а. Промоторная область гена H2AFX. ![]() Рисунок 15б. Последовательность нуклеотидов в промоторной области гена H2AFX. Зеленой рамкой обведен сайт связывания TBP. Продукт гена DNMT1 участвует в метилировании цитозинов по 5 положению. Этот процесс необходим для регуляции уровней экспрессии генов, так как в промоторных областях многих генов находятся CpG-островки. Ген DNMT1 расположен на 19 хромосоме (координаты 10,244,022 - 10,305,755, длина 61,734 п.о., закодирован на (-)-цепи и содержит 40 экзонов). Его промоторная область представлена на рисунках 16а и 16б. ![]() Рисунок 16а. Промоторная область гена DNMT1. ![]() Рисунок 16б. Последовательность нуклеотидов в промоторной области гена DNMT1. Зеленой рамкой обведен сайт связывания TBP. Еще один ген, транскрипция которого зависит от TBP, - это CDC40, участвующий в регуляции прохождения клетки по клеточному циклу (рисунок 17). Расположен на 6 хромосоме (координаты 110,501,587 - 110,553,422, длина 51,836 п.о., закодирован на (+)-цепи и содержит 15 экзонов). ![]() Рисунок 17а. Промоторная область гена CDC40. ![]() Рисунок 17б. Последовательность нуклеотидов в промоторной области гена CDC40. Зеленой рамкой обведен сайт связывания TBP. В двух из трех описанных случаев сигнал TATA-box расположен перед началом гена на расстоянии около 20 нуклеотидов. В третьем случае сайт связывания TBP расположен уже внутри самого гена. В целом, в геноме встречается расположение TATA-box и внутри, и перед геном, по крайней мере, по результатам данного анализа ChIP-seq. |
© Наталия Кашко, 2016 |