Сигналы

Задание 1. Сравнить состав систем рестрикции модификации, закодированных в двух штаммах одного вида.

Для работы получил бактерию Bifidobacterium bifidum, GenBank AC CP001361.1. Поиск велся с помощью веб-сервиса с использованием метода Карлина. Таблица содержит информацию об ожидаемом количестве и контрасте всех сайтов из списка в геноме бактерии. Значение контраста (отношение наблюдаемое/ожидаемое число сайтов) находится в столбце Karlin's ratio. Сайты, ожидаемое число которых значительно отличается от числа наблюдаемых были найдены по принципу "контраст меньше 0.78". Таких сайтов оказалось всего два:

CTCGAG: 0,231
CTAG: 0,389

Также требовалось проделать аналогичную работу с набором контигов той же бактерии из метагенома кишечника человека. Результат доступен по ссылке. в этот раз избегаемых сайтов со значением контраста было уже 4:

CTCGAG: 0,549
CTAG: 0,582
TCTAGA: 0,642
CTTAAG: 0,684

Можно заметить, что у бактерии из метагенома кишечника человека присутствуют оба сайта, найденные в геноме бактерии из генбанка. Это может означать, что бактерия, геном которой использовался в первом случае, недавно потеряла соответствующие рестриктазы.

Задание 2. Поиск последовательностей Шайн-Дальгарно.

Последовательность Шайна-Дальгарно - сайт связывания рибосом на молекуле мРНК прокариот, обычно на расстоянии около 10 нуклеотидов до стартового кодона AUG. Консенсусом является последовательность из шести нуклеотидов AGGAGG. Комплементарное взаимодействие между последовательностями Шайна-Дальгарно и анти-Шайна-Дальгарно (консенсус CCUCCU, расположена на 3'-конце молекулы 16S рибосомной РНК) служит для помещения старт-кодона мРНК в P-сайт рибосомы для начала биосинтеза белка.

При выполнении задания я искал такие последовательности в геноме археи Methanosaeta concilii GP6, выданной мне в первом семестре. Для этого я проделал следующие шаги:

На странице бактерии в БД NCBI Assembly была найдена последовательность хромосомы.
Были сохранены fasta-файл последовательности хромосомы и таблица Feature table, содержащая данные об особенностях записи. Таблица была обработана скриптом features2CDSs.py.
Для создания PWM были выбраны 300 самых длинных последовательностей; Область поиска ограничена 13 нуклеотидами от старт-кодона; координаты областей поиска для каждого гена были получены в EXCEL.
Полученная таблица с координатами облатей поиска для 300 "лучших" последовательностей была обработана скриптом fragments2fasta.py. Были получены последовательности фрагментов, по которым будет вестись поиск.
Полученные последовательности были использованы для построения PWM на сайте MEME suit. Поиск проводился со следующими параметрами:

Рис.1.Параметры поиска PWM в MEME, первая попытка

К сожалению, поиск не принёс результата: МЕМЕ не нашел ни одного мотива. Поэтому для дальнейшего выполнения задания была выбрана другая бактерия - Aquifex aeolicus, последовательность хромосомы и таблица особенностей также были взяты со страницы бактерии в БД NCBI Assembly. C полученными данными была проделана та же самая работа, что и раньше. Для первичного анализа и поиска мотива были выбраны 400 самых длинных кодирующих последовательностей, поиск мотива велся на расстоянии -16 до старт кодона. Получив файл, содержащий последовательности с указанными координатами, я использовал его для поиска с помощью МЕМЕ со следующими параметрами: длина мотива от 4 до 10 нуклеотидов, встречается 0 или 1 мотив, поиск только на данной цепи.

На этот раз МЕМЕ нашел искомый мотив и составил нужную нам позиционно-весовую матрицу (PWM), которая дальше была использована для поиска этого мотива в upstream-области всех генов. Этот поиск был проведен с помощью сервиса FIMO. В этот раз область поиска была расширена до -25 нуклеотидов от старт-кодона, порог e-value задан 0.01. Последовательность Шайна-Дальгарно была найдена примерно в 80% всех генов, что является очень даже неплохим результатом. Итог работы сервиса - таблицу в формате Excel можно скачать здесь. Лого мотива приведено на рисунке 2:

Рис.2.Лого найденных SD.

Задание 3. Определение сайтов связывания данного транскрипционного фактора в данном участке хромосомы человека

Для работы получил файл chipseq_chunk14.fastq, содержащий риды Illumina одного из участков хромосомы человека. Сначала был проведен контроль качества ридов с помощью команды fastqc chipseq_chunk14.fastq. Отчёт о проделанной командой работе содержится в файле fastqc_report.html. Всего ридов 6546. Kачество чтения очень высокое на всём протяжении последовательности, поэтому программа Trimmomatic для очистки чтений от участков плохого качества не применялась.
Прочтения были картированы на проиндексированный геном человека:

bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk14.fastq > chipseq_chunk14.sam

После был проведен анализ полученного выравнивания:

samtools view -b chipseq_chunk14.sam -o aln.bam

- перевод в бинарный формат;

samtools sort aln.bam out.predix.bam

- сортировка по координате в референсе начала чтения;

samtools index out.predix.bam

- индексация полученного файла;

samtools idxstats out.predix.bam

- узнаем, сколько ридов было откартировано, см рис 3.1.

Рис.3.1. Число картированных ридов выделено зеленым, некартированных - красным.

На хромосому картировались все риды без исключения, при этом на митохондриальную хромосому не картировалось ни одного рида; большинство ридов было картировано на пятую хромосому. Скорее всего, именно с неё и были почитаны риды. Программа MACS была запущена со следующими параметрами:

macs2 callpeak -n chunk14 -t chipseq_chunk14.sorted.bam --nomodel

Было получено три выходных файла:

Программа нашла 6 пиков. Для визуализации пиков в UCSC Genome Browser был выбран файл chunk14_peaks.narrowPeak. Для этого в него были добавлены следующие строки:

track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 14"

browser position chr5:77779600-78440400

Файл был подан на вход форме custom tracks в UCSC Genome Browser. Скриншот - на рис.3.2:

Рис.3.2. 5 пиков, открытые в Genome Browser.

Рассмотрим подробнее пики 1 и 2.

Пик	1	2
Длина пика	284	283
-LOG10(pvalue)	13.17144	21.30753
Вершина пика относительно начала	92 от начала пика	144 от начала пика
Положение в геноме	Оба пика пересекают экзоны гена LHFPL2, кодирующего трансмембранный белок lipoma HMGIC fusion partner-like 2 protein, мутации в котором приводят к глухоте.

Чем больше величина -LOG10(pvalue), тем меньше числовое значение pvalue и, следовательно, тем достовернее пик. Таким образом, второй пик является самым достоверным из всех пяти.

Инициация с помощью ТАТА-бокс связывающего белка

TATA-бокс связывающий фактор TBP - архейный и эукариотический белок, узнающий восьминуклеотидный сигнал в ДНК с консенсусом TATAWAAR. Он является одним из ключевых ДНК-узнающих белков при образовании на промоторе генов комплекса TFIID инициации транскрипции с помощью Pol II. Тем не менее, лишь часть промоторов имеет сигнал TATA-box, связываемый TBP. Цель этого задания - найти в геноме человека три гена, имеющих такой сигнал, и один ген, не имеющий сигнала. Поиск велся с помощью сервиса UCSC GenomeBrowser. Для белка TBP (TATA binding protein) был выбран ChiP-Seq-эксперимент, проведенный на клеточной линии GM12878. В эксперименте использовались антитела к TBP ab62126.

Первый ген, имеющий пик - ген GYG1, кодирующий белок гликогенин-1 - гликозилтрансферазу, катализирующую формирование небольших глюкозных полимеров. Размер кодирующей последовательности составляет 35351 нуклеотидов. Позиция в геноме - 148709428-148744778, на 3 хромосоме (+ - цепь). Ген имеет 6 экзонов.

Рис.4.1. Ген GYG1 в мелком масштабе

Рис.4.2. Ген GYG1 в крупном масштабе. Мотив выделен оранжевым

Второй ген, у которого нашелся пик - ген FOSB. Семейство генов Fos включает в себя 4 гена: FOS, FOSB, FOSL1 и FOSL2. Они кодируют белки - лейциновые молнии, которые учавствуют в димеризации белков семейства JUN, формируя комплекс - транскрипционный фактор AP-1. Размер кодирующей последовательности гена - 7185 нуклеотидов. В геноме расположен на "+"-цепи 19 хромосомы на позиции 45971253-45978437. Имеет 3 экзона.

Рис.4.3. Ген FOSB в мелком масштабе.

Рис.4.4. Ген FOSB в крупном масштабе. Мотив выделен оранжевым.

Третий ген с выраженным пиком - PDE5A, кодирующий ГМФ-связывающую фосфодиэстеразу. Положение в геноме - 120415550-120549981 на "+" - цепи 4 хромосомы. Длина гена - 7005 нуклеотидов.

Рис.4.5. Ген PDE5A в мелком масштабе

Рис.4.6. Ген PDE5A в крупном масштабе. Мотив выделен оранжевым

В качестве примера гена без ТВР-связывающего мотива был выбран ген AGTR1. Его продукт - рецептор ангиотензина-2 первого типа. Находится на "+" - цепи третьей хромосомы. Положение на хромосоме - 148415658-148460790. Длина гена - 2272 нуклеотида.

Рис.4.7. Ген AGTR1 в мелком масштабе. Пиков нет

Рис.4.8. Ген AGTR1 в крупном масштабе

Назад к странице четвертого семестра.