Сигналы

Задание 1. Сравнить состав систем рестрикции модификации, закодированных в двух штаммах одного вида.

Для исследования была выдана бактерия Parabacteroides distasonis, GenBank AC CP000140.1. Поиск избегаемых сайтов рестрикции был проведен при помощи веб-сервиса (использовался метод Карлина). Первый лист таблицы содержит информацию об ожидаемом количестве и контрасте всех сайтов из списка в геноме бактерии. Значение контраста (отношение наблюдаемое/ожидаемое число сайтов) находится в столбце Karlin's ratio. Сайты, ожидаемое число которых значительно отличается от числа наблюдаемых, были найдены по принципу "контраст меньше 0.78". Таких сайтов оказалось 14, в таблице они выделены синим цветом.
Аналогичная работа была проделана с набором контигов той же бактерии из метагенома кишечника человека. Результат находится в таблице на втором листе. На этот раз избегаемых сайтов оказалось 11, в таблице они выделены серым.
Общими для двух штаммов оказались 9 сайтов, они сведены в сравнительную таблицу на третьем листе таблицы результатов. Ожидаемое количество сайтов в наборе контигов из метагенома для разных сайтов может быть как больше, так и меньше. Это может говорить о том, что оба штамма недавно потеряли разные рестриктазы.

Задание 2. Поиск последовательности Шайна – Дальгарно

Последовательность Шайна — Дальгарно — сайт связывания рибосом на молекуле мРНК прокариот, обычно на расстоянии около 10 нуклеотидов до стартового кодона AUG. Консенсусом является последовательность из шести нуклеотидов AGGAGG. Комплементарное взаимодействие между последовательностями Шайна — Дальгарно и анти-Шайна — Дальгарно служит для помещения старт-кодона мРНК в P-сайт рибосомы для начала биосинтеза белка.
Для выполнения задания требовалось найти последовательности Шайна - Дельгарно в геноме бактерии из первого семестра - Magnetospirillum magneticum AMB-1. Геном бактерии был скачан из бд NCBI Assembly, как и таблица особенностей. После этого было выбрано 350 самых "хороших" генов (достаточно длинные гены с известным продуктом). Для каждого такого гена был получен участок перед СDS от -17 до -1. В этих вырезанных фагментах искали мотивы c помощью программы MEME:

Параметры: длина мотива - от 6 до 8, 0 или 1 мотив на одну последовательность, мотив искали на той же цепи. Было найдено 3 лучших мотива (Рис.1.1).

Рис.1.1. Найденные МЕМЕ мотивы.

Видно, что лучший мотив (E-value: 9.7e-064) на много доставернее остальных и довольно похож на консенсус SD. PWM для этого мотива была направлена в FIMO для поиска по всем генам бактерии. Для этого вырезались участки от -26 до -1 до начала CDS. Длина участков была увеличена, чтобы снизить вероятность ошибок поиска для неправильно аннотированных генов.
В итоге для 4119 генов нашлось 2889 мотивов с p-value < 0.01. Результаты работы FIMO и анализ полученных данных представлен в файле FIMO.
У находок в основном старт SD приходится на позиции от -8 до -6 от начала трансляции, что согласуется с литературными данными. Для найденных мотивов было построено logo (Рис. 1.2).

Рис. 1.2.

Задание 3. Определите сайты связывания данного транскрипционного фактора в данном участке хромосомы человека.

Для выполнения задания получил файл chipseq_chunk46.fastq, содержащий риды Illumina одного из участков хромосомы человека. К сожалению, риды в нем были очень плохого качества, поэтому для работы я взял резервный файл chipseq_chunk7.fastq. Сначала провёл контроль качества ридов с помощью команды fastqc chipseq_chunk7.fastq. Результат выполнения команды - zip-архив - содержал файл fastqc_report.html, в котором содержался отчёт о проделанной программой работе. Всего ридов 6543. Kачество чтения очень высокое на всём протяжении последовательности (видно на графике Per base sequence quality), поэтому программа Trimmomatic для очистки чтений от участков плохого качества не применялась.
Риды были картированы на проиндексированный геном человека:
bwa mem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk7.fastq > chipseq_chunk7.sam
Полученное выравнивание было проанализировано:

Выравнивание переведено в бинарный формат:
samtools view -b chipseq_chunk7.sam -o aln.bam
Отсортировано по координате в референсе начала чтения:
samtools sort aln.bam out.predix.bam
Полученный файл проиндексирован:
samtools index out.predix.bam
Получены данные о количестве откартированных ридов (см. рис. 2):
samtools idxstats out.predix.bam

Рис.2. Число картированных ридов выделено ярко-зеленым, некартированных - красным.

На хромосому картировались все риды без исключения, при этом на митохондриальную хромосому не картировалось ни одного рида; большинство ридов было картировано на первую хромосому. Следовательно, именно с неё и были почитаны риды. Программа MACS была запущена со следующими параметрами:
macs2 callpeak -n chunk7 -t out.predix.bam --nomodel
На выход программа дала три файла:

Всего программа нашла 9 пиков. Они были визуализированы в UCSC Genome Browser при помощи файла chunk7_peaks.narrowPeak. Для этого в него были добавлены следующие строки:

track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 7"

browser position chr1:59248597-59960068

Файл был подан на вход форме custom tracks в UCSC Genome Browser. Скриншот - на рис.3.:

Рис.3. 10 пиков, открытые в Genome Browser.

Рассмотрим подробнее пики 1 и 2:

Пик	1	2
Длина пика	478	200
-LOG10(pvalue)	53.41487	12.63990
Вершина пика относительно начала	168 от начала пика	120 от начала пика
Положение в геноме	Пересекают экзон гена LINC01135, принадлежащий длинной некодирующей РНК 1135.

Чем больше величина -LOG10(pvalue), тем меньше числовое значение pvalue и, следовательно, тем достовернее пик. Cледовательно, первый пик является самым достоверным из всех.

Задание 4. Инициация с помощью ТАТА-бокс связывающего белка

TATA-бокс связывающий фактор TBP - архейный и эукариотический белок, узнающий восьминуклеотидный сигнал в ДНК с консенсусом TATAWAAR. Он является одним из ключевых ДНК-узнающих белков при образовании на промоторе генов комплекса TFIID инициации транскрипции с помощью Pol II. Тем не менее, лишь часть промоторов имеет сигнал TATA-box, связываемый TBP.
Описание выбранного эксперимента представлены на Рис. 3. Взята клеточная линия HeLa-S3.

Рис. 3. Параметры выбранного эксперимента.

Ген G6PC3
Название: Homo sapiens glucose 6 phosphatase catalytic subunit 3
17 хромосома, старт: 42148098, стоп: 42153712, прямая цепь, длина 1637 п.н., последовательность TATAAA расположена на расстоянии приблизительно 20 нуклеотидов от старта транскрипции (Рис. 4, Рис. 5).

Рис. 4. Промоторная область гена G6PC3 в мелком масштабе. Пик отчетливо виден.

Рис. 5. Промоторная область гена G6PC3 в увеличенном масштабе. Красным выделена последовательность TATA-бокса.

Пик отчётливо на уровне общего шума, в промоторной области в 16 нуклеотидах от старта транскрипции была найдена TACAAA. ТАТА-бокс очень сходен с консенсусом, что позволяет предположить, что промотор сильный.

Ген ITPR1
Homo sapiens inositol 1,4,5-trisphosphate receptor type 1
3 хромосома, старт: 4535032, стоп: 4889524, прямая цепь, длина 10053 п.н. Рис. 6, Рис. 7.

Рис. 6. Промоторная область гена ITPR1 в мелком масштабе. Виден отчётливый пик.

Рис. 7. Промоторная область гена ITPR1 в увеличенном масштабе. Последовательность ТАТА-бокса выделена красным

Высокий пик, что говорит о высокой достоверности, присутствует последовательность TATA-бакса (TATATA), близкая к консенсусу. Расположена в примерно 20 нуклеотидах от старта транскрипции.

Ген TPI1, triosephosphate isomerase isoform 1
12 хромосома, старт: 6976693 , стоп: 6980110, прямая цепь, длина 1366 п.н. Рис. 8, Рис. 9.

Рис. 8. Промоторная область гена TPI1 в мелком масштабе. Виден отчётливый пик.

Рис. 9. Промоторная область гена TPI1 в увеличенном масштабе. Последовательность ТАТА-бокса выделена красным

Виден сильный сигнал, позволяющий предполагать, что есть высоко консервативный ТАТА бокс.

Ген ATAD5
Название: Homo sapiens ATPase family, AAA domain containing 5
17 хромосома, старт: 29158988, стоп: 29222883, прямая цепь, длина 6865 п.н. Рис. 10, Рис. 11.

Рис. 10. Промоторная область гена ATAD5 в мелком масштабе. Виден отчётливый пик.

Рис. 11. Промоторная область гена ATAD5 в увеличенном масштабе. Явной последовательности ТАТА-бокса, близкой к консенсусу нет.

Пик связывания антител в промоторной области для данного гена очень высокий, гораздо выше уровеня шума, что говорит о его высокой достоверности. Однако последовательности TATA-бокса в промоторном регионе нет - есть только последовательность (выделена красным на Рис.11) CGTAAA, 4 основаниями схожая с консенсусной, но всё же её вряд ли можно отнести к последовательности TATA-бокса. Поэтому для этого гена, по-видимому, ТАТА-бокса в промоторной области нет.

На главную