Блок 3: сигналы

Задание 1: Сайты рестрикции-модификации

Для анализа сайтов рестрикции-модификации (РМ-сайтов) были выданы идентификатор CP002367.1 и имя вида Selenomonas sputigena По идентификатору был распознан геном бактерии Lactococcus lactis (Bacteria; Firmicutes; Bacilli; Lactobacillales; Streptococcaceae; Lactococcus; Lactococcus lactis). Бактерия широко используется в пищевой промышленности в производстве сыров благодаря способности сбраживать сахара в молочную кислоту. Selenomonas sputigena (Bacteria; Firmicutes; Negativicutes; Selenomonadales; Selenomonadaceae; Selenomonas; Selenomonas sputigena) населяет ротовую полость человека. Поскольку в ротовой полости содержится лизоцим - фермент, расщепляющий клеточную стенку бактерии - sputigena должна быть к нему устойчива. Если лизоцимы фагов похожи на человеческий (к сожалению, нет времени посмотреть), то бактерия будет иметь и защиту от фагов. А значит, удалять большое колическтво РМ-сайтов ей нет смысла.
Архивированные геном lactis и контиги sputigena вместе со списком РМ-сайтов были отданы на обработку сервису calculate compositional bias. Результаты (CP002637.1.fasta.gz и Selenomonas_result.tsv соответственно) были загружены в RM_sites.xlsx. В Excel посчитано число подпороговых (меньших 0,78) отношений ожидаемого числа РМ-сайтов к реальному и сделан список подпороговых РМ-сайтов. Затем оба списка подпороговых сайтов, sputigenia и lactis, были сопоставлены. У sputigena не оказалось ни одного удалённого РМ-сайта, который не был бы удалён у lactis(общие отсутствующие РМ-сайты обведены зелёным и выделены звёздочкой):

Задание 2: последовательность Шайн-Дальгарно


Поскольку скрипт features2CDSs.py по отгонке CDS в xls с моей бактерией работать отказался (формат features у неё довольно странный), взяла любимый Deinococcus radiodurans, 1ую хромосому. Файлы:Deinococcus.fasta - 1ая хромосома, Deinococcus.ft - features. После отработки скрипта (python features2CDSs.py -i Deinococcus.ft -o Deinococcus.xls) получен Deinococcus.xls, в котором с помощью "удалить дубликаты" были сначала удалены все "hypothetical protein" и "conserved hypothetical protein" (а только они в столбце product и повторяются). Потом с помощью "если" был создан столбец с нулями в тех строках, где max_coord-min_coord<900, то есть длина гена менее 900. И уже оттуда удалены совпадения по нулям. Итого остались прелестные 606 генов, которые будем смотреть.
Для отбора взяли область в 17 кодонов от стартового: если ориентация прямая, то берём область [min_coord-16, min_coord], если обратная - то берём [max_coord, max_coord+16]. Результат отбора с заголовком из Excel копируем в txt (заголовок комментим диезом!) и отдаём скрипту fragments2fasta.py (python fragments2fasta.py -i select17.txt -f Deinococcus.fasta -o select17.fasta). На выходе получаем fasta-файл с 17-нуклеотидными участками, где будет искаться сигнал Шайн-Дальгарно: AGGAGG на прямой цепи и CCUCCU на обратной.
Для выполнения поиска с помощью MEME надо:
- задать фаста-файл с координатами 17-нуклеотидных отрезков (Input the primary sequences),
- выбрать, сколько раз может мотив встречаться на каждой из выравниваемых последовательностей (Select the site distribution),
- выбрать число мотивов, которые будут искаться в выравнивании (Select the number of motifs)- об этом немного подробнее будет ниже,
- отредактировать Advanced options, задав минимум и максимум столбцов в паттерне (длину мотива то есть) и поиск мотива только на заданной цепи или на обеих (Can motif sites be on both strands? (DNA/RNA only)).
Итог - файл с результатами MEME. При поиске только одного мотива был обнаружен не Шайн-Дальгарно - возможно, его стоит исследовать в дальнейшем, если будет время, поскольку для Deinococcus radiodurans он более специфичен. При поиске 3х мотивов Шайн-Дальгарно был найден вторым, а третьим стал мотив, фактически идентичный первому, но смещённый на одну позицию влево в выравнивании. Параметры поиска мотива:

Расположение мотивов на последовательностях (Шайн-Дальгарно голубой):

Лого трёх найденных мотивов:

По стрелке "вправо" рядом с каждым мотивом его можно передать в сервис FIMO, который найдет частоты встречаемости мотива в предложенном ему fasta-файле с координатами 17-нуклеотидных промоторных участков всех (а не только отобранных) генов. Для загрузки файла надо выбрать в первом выпадающем списке раздела "Input the sequences" строку "Upload sequences". Если p-value будет слишком малым, то в выдаче может не оказаться ничего, либо только один ген, как получилось у меня при p-value = е-06.
Выдача FIMO для p-value = e-05:

При p-value = e-05 FIMO выдал 13 генов с мотивом Шайн-Дальгарно, а повысив ещё на порядок, получим 88. Наконец, при p-value < 0.01 получим 604 гена, что составляет больше пятой части генов первой хромосомы Deinococcus radiodurans. Все результаты доступны в файле Deinococcus.xls

Задание 3


Для картирования была взята последовательность №18, скопирована и переименована в my18. Анализ качества прочтений показал, что триммирование необязательно:

bwa вывел информацию о 9256 прочтениях. После обработки samtools (Utilities for the Sequence Alignment/Map (SAM) format, команды и их описание можно найти здесь:Семестр3, Ресеквенирование) данные из idxstats были выведены в файл, содержимое которого после обработки в excel и удаления последовательностей, куда read'ы не откартировались вовсе, выглядит так:

Наибольшее число прочтений пришлось на 7-ую хромосому. Model-based Analysis for ChIP-Sequencing (macs2 callpeak -t chipseq_chunkX.sorted.bam) сообщила, что пиков слишком мало, поэтому было перезапущено с опцией --nomodel. Получены my18_peaks.xls и my18_peaks.narrowPeak с результатами macs.
Для наглядного отображения в геномный браузер UCSC был загружен my18_peaks.narrowPeak c добавленой вверху строчкой описания данных: track type=narrowPeak visibility=3 db=hg19 name="my18" и выбрана сборка генома hg19 в выпадающем списке сверху. После перехода в геномном браузере на 7ую хромосому, нуклеотиды 148611200-149416700, пики можно видеть на cкриншоте (рыжими чёрточками):

.

Описание пиков:


Таблица с характеристиками пиков (месторасположение, максимум, смещение максимума и т.п.):

Наиболее достоверными по отрицательным логарифмам p-value и q-value являются пики 1 и 5. Ширина пиков от 200 до 400, хуже всех центрированы пики 2 и 4.

Пик 1 не попадает в какую-либо известную значимую область, если только не считать эту область промоторной для гена PDIA4 (protein disulfide isomerase family A) (на скриншоте не показана, по текущей аннотации начинается с 148700154):

Пик 2 находится очень близко к месту терминации гена ZNF786(zinc finger protein):

Пик 3 расположился в районе 4ого интрона гена ZNF282:

Пик 4 лежит между значимыми областями, ближайшая такая область - ген тРНК цистеина (справа):

Пик 5 занимает первый интрон гена KRBA1 (KRAB-A domain containing 1):

Задание 4.


Для клеточной линии HCT116 Поиск TATA-бокса по браузеру оказался довольно утомительным: из 15 просмотренных пиков в промоторных областях генов только 2 таких области содержали его. Из этого можно сделать вывод, что для человека TATA-бокс нетипичен. Содержащие ТАТА-бокс промотеры:
  1. IPTR1 (inositol 1,4,5-trisphosphate receptor type 1) - кодирует внутриклеточный рецептор к инозитол 1,4,5-трифосфату, под действием которого запускает механизм высвобождения Ca2+ из эндоплазматического ретикулума. Расположение: 3-я хромосома, 4535032-4889524п.н., прямая цепь, размер гена 354493 баз.
    Обзорный вид:


    В масштабе нуклеотидов:

  2. RPS28(ribosomal protein S28) - рибосомальный белок, компонент 40S-субъединицы 80S-рибосомы. Расположение: 19 хромосома, 8386384-8387280 п.н., прямая цепь, размер гена 897 баз.
    Обзорный вид:


    В масштабе нуклеотидов:

В качестве не содержащего ТАТА-бокс промотера приведу промотер гена ARL8b (ADP ribosylation factor like GTPase 8B). Располоение: 3-я хромосома, 5163930-5222601 п.н., прямая цепь, размер гена 58672 баз:
Обзорный вид:


В масштабе нуклеотидов: