Задание 1. Сравнить состав систем рестрикции модификации, закодированных в двух штаммах одного вида.
Мне досталась бактерия Faecalitaleacylindroides (идентификатор GenBankFP929041.1). Необходимо было найти избегаемые сайты рестрикции.
По методу Карлина был посчитан ожидаемый контраст и количество всех сайтов из
списка.
Результат представлен в файле
pr10.tsv. Затем были найдены все сайты, для которых контраст меньше, чем 0.78 – это «избегаемые»
сайты рестрикции, их 10 штук. Данные о них представлены в файле
pr10result.tsv.
Далее были найдены избегаемые сайты рестрикции в наборе контигов из метагенома. Результат представлен в файле
pr101.tsv.
Были найдены все сайты, для которых контраст меньше 0.78. Их 45. Результат находится в файле
pr101result.tsv.
Было произведено сравнение табличек. Результат представлен в файле
pr10compare.xlsx.
Совпадающие сайты отмечены
жёлтым – их 8 штук. Уникальных последовательностей для полного генома – 2 сайта,
для контигов – 37 сайтов.
К сожалению, в базе данных Nucleotide не было сведений про место обитания данного штамма. Возможно, так как первый геном содержит меньше избегаемых сайтов,
то он меньше нуждается в системе рестрикции-модификации и, возможно, живет в менее «опасном» районе, чем кишечник.
Задание 2. Найти последовательности Шайн-Дальгарно в геноме бактерии, полученной в первом семестре.
Была найдена
страница бактерии Gordonibacte rpamelaeae 7-10-1-b
в базе данных Assembly и
ее последовательность.
Со страницы последовательности был скачан
fasta-файл с хромосомой , а также
файл с особенностями .
Последний файл был обработан скриптом
features2CDSs.py .
Выходной файл:
newfile.xls.
Для анализа были выбраны 300 самых длинных кодирующих последовательностей. Они представлены в файле
newfile1.xls),
где на вкладке newfile.xlsпредставлены также данные выходного файла.
Последовательность Шайн-Дальгарно – сайт связывания рибосом на молекуле мРНК прокариот,
расположенная обычно на расстоянии около 10 нуклеотидов до стартового кодона AUG. Консенсусная последовательность состоит из 6 нуклеотидов AGGAGG.
В качестве области поиска у отобранных генов был взят участок [-16;0]. (вкладка search1 в файле newfile1.xls). Для всех генов, в соответствии с рекомендацией в задании,
область поиска была немножко расширена до [-20;0] (вкладка search2 в newfile1.xls).
Координаты последовательностей, предположительно включающих последовательности Шайн-Дальгарно.
Далее использовались онлайн версии программы
MEME.
Я запускала MEME со следующими параметрами: длина мотива - от 6 до 10 н., поиск только по данной цепи (поскольку даны кодирующие последовательности),
в последовательности ожидается от 0 до 3 появления мотива.
Параметры, с которыми была запущена MEME.
HTML-выдача программы MEME -
здесь.
Три разных мотива, найденные MEME.
Лого мотивов, найденных программой MAST.
Первый их этих мотивов - искомая последовательность Шайна-Дальгарно. Видно, что e-value первого найденного мотива намного меньше, чем e-value остальных.
Затем я произвела поиск в MEME с теми же параметрами, но уже только одного наилучшего мотива. (
html) В результате была получена позиционная матрица весов (PWM).
Позиционная матрица весов для первого мотива:
Затем уже проводился поиск по регионам перед всеми генами с помощью ресурса
FIMO, предварительно расширив область поиска c -26 до -1 позиции до начала кодирующей последовательности.
Найденная PWM была подана на вход алгоритму FIMO, который искал мотив последовательности Шайна-Дальгарно уже по всем генам.
Порог E-value: 0.01.
В результате было найдено 1510 генов, удовлетворяющих заданным условиям.
Выдача программы приведена в таблице
FIMOresults.xls.
Задание 3. Определить сайты связывания данного транскрипционного фактора в данном участке хромосомы человека.
Мне был выдан файл chipseq_chunk1.fastq с ридами Illumina, полученный в результате chip-seq эксперимента. С помощью команды
fastqcchipseq_chunk1.fasta
был сделан контроль качества прочтений. В выдаче программы содержались файлы
chipseq_chunk1_fastqc.html и
chipseq_chunk1_fastqc.zip. В файле формата html содержалась картинка, представленная ниже:
Рисунок 1. График качества чтений
Общее число чтений: 4463, длина ридов: 36. Качество ридов хорошее, так как все значения в зеленой области, поэтому чистить их программой Trimmomatic не нужно.
Затем было выполнено картирование прочтений на геном человека hg19.
Команда:
bwamem /srv/databases/ngs/hg19/GRCh37.p13.genome.fa chipseq_chunk1.fastq > chipseq_chunk1.sam.
Затем был произведен анализ полученного выравнивания из файла в формате sam при помощи следующих команд:
1)
samtoolsview -bSochipseq_chunk1.bamchipseq_chunk1.sam (перевод выравнивания чтений с референсом в бинарный формат bam, -b–переводит в бинарный формат bam, -o– выходной файл, -S – входной формат файла определяется автоматически).
2)
samtoolssortchipseq_chunk1.bam -Tchip_temp -ochipseq_chunk1.sorted.bam (сортировка выравнивания чтений с референсом по координате в референсе начала чтения, -Т – задание директории для временных файлов).
3)
samtoolsindexchipseq_chunk1.sorted.bam (индексирование отсортированного bam-файла).
4)
samtoolsidxstatschipseq_chunk1.sorted.bam>chipseq_chunk1.idxstats (выяснить, сколько чтений откартировалось на геном).
5)
samtoolsview -cchipseq_chunk1.sorted.bam (общее количество откартировавшихся ридов).
Откартировалось 4463 рида, то есть все.
Затем была запущена программа для поиска пиков:
macs2callpeak -t chipseq_chunk1.sorted.bam
Однако пиков оказалось слишком мало, поэтому программа была запущена с другими параметрами:
macs2callpeak -tchipseq_chunk1.sorted.bam --nomodel -nchunk1 (из-за опции – nв названии полученных файлов в начале chunk1)
Были получены файлы
chunk1_peaks.narrowPeak,
chunk1_peaks.xls ,
chunk1_summits.bed и
chunk1_peaks.xls,
chunk1_summits.bed.
В файлchunk1_peaks.narrowPeak были добавлены строки:
track type=narrowPeak visibility=3 db=hg19 name="my_peaks" description="Peaks from chunk 17"
browserpositionchr12: 132060000-133000000
Всего было найдено 5 пиков. Визуализация найденного представлена на рисунке 2.
Рисунок 2. Визуализация информации о пиках при помощи UCSCGenomeBrowser (расширение файла narrowPeak)
Так же была произведена визуализация данных из файла с расширением .bed. Результат представлен на рисунке 3.
Рисунок 3. Визуализация информации о пиках при помощи UCSCGenomeBrowser (расширение файла bed)
Подробнее были исследованы пики 1, 3 и 5.
Пик |
1 |
5 |
3 |
Ширина пика |
575 |
208 |
299 |
Достоверность пиков (-log10pvalue) |
33.74101 |
13.14490 |
33.72623 |
Положение пика относительно начала |
163 |
93 |
156 |
Чем p-value меньше, тем достовернее пик, значит, чем больше –log10p-value, тем достовернее пик. Таким образом, пик 1 наиболее достоверен, а пик 5 наименее достоверен.
Пик 1 не перекрывается ни с какими генами (он слишком далеко расположен от генов).
Пик 2 расположен на некотором расстоянии (но меньшем, чем в случае пика 1) от гена GALNT9 (кодирует член семейства UDP-N-acetyl-alpha-D-galactosamine:
polypeptideN-acetylgalactosamintransferase). Рядом же с пиком 3 расположено множество различных генов: в частности, он расположен перед геном GALNT9 (EnsemblIDENSG00000182870),
а также EP400 (человеческий белок, связывающий E1A), NOC4L (ядрышковый комплекс, связанный с 4 гомологом S.cerevisae), EP400 (EP400 N-terminallike, некодирующая РНК),
HumanGeneDDX51 (HomoSapiensDEAD (Asp-Glu-Ala-Asp) boxpolypeptide 51-DDX51, мРНК).
Задание 4. Поиск сигналов TATA-бокс связывающего белка (TBP) в геноме человека.
TATA-бокс связывающий фактор TBP - архейный и эукариотический белок, узнающий восьминуклеотидный сигнал в ДНК с консенсусом TATA(А/Т)A(A/T)(A/G). Не все промоторы имеют сигнал TATA-box.
Первый ген, для которого был найден ТАТА-бокс:
промоторная область в крупном масштабе
промоторная область в мелком масштабе
Ген |
Координаты старта транскрибции |
Длина гена |
Координаты ТАТА-бокса |
Последовательность ТАТА |
Homo sapiens ribosomal protein S9 (RPS9), transcript variant 6 |
chr19:на прямой цепи:54 704 725 |
6 651 |
54 704 695 |
ТАТААGAG |
Второй ген, для которого был найден ТАТА-бокс:
промоторная область в крупном масштабе
промоторная область в мелком масштабе
Ген |
Координаты старта транскрибции |
Длина гена |
Координаты ТАТА-бокса |
Последовательность ТАТА |
Homo sapiens ZNF649 antisense RNA 1 (ZNF649-AS1) |
chr19:на обратной цепи:52 391 278 |
17 026 |
52 408 605 |
ТАTAAAAAT |
Третий ген, для которого был найден ТАТА-бокс:
промоторная область в крупном масштабе
промоторная область в мелком масштабе
Ген |
Координаты старта транскрибции |
Длина гена |
Координаты ТАТА-бокса |
Последовательность ТАТА |
Ген |
chr19:на обратной цепи: 50 832 633 |
13 869 |
50 832 762 |
TATTTAAA |
Во всех трех описанных случаях сигнал TATA-box расположен перед началом гена на довольно большом расстоянии (100 нуклеотидов).
Часто было так, что рядом с генами был сигнал TBP, а в последовательности был не мас ТАТА-бокс, а бласть очень похожую на него.
Белков без сигнала TATA-бокса в промоторной области было намного больше, чем с. Вот пример одного из них:
промоторная область в крупном масштабе
промоторная область в мелком масштабе
СПАСИБО ЗА ПРОСМОТР
© Мария Медведева