Учебный сайт Сергея Пушкарева

Навигация по сайту:

Bedtools

Обязательная часть

Из наличий у белка нескольких изоформ одинаковые экзоны изоформ вошли в intersects.bed несколько раз. Удалим их с помощью uniq. Новых белков кроме SET protein из предыдущего практикума не появилось. На ген лег 19081 рид (при том, что начинали в прошлом практикуме мы с датасетом из 19976 ридов, это, наверное, очень классный результат). Почти все риды из данных 12 практикума легли на этот ген. Видимо, это и объясняет то, что других генов htseq-count нам не нашел.

Использовавшиеся команды
Команда Комментарий
bedtools bamtobed -i mapped_reads_sorted.bam > transcriptome.bed Переводит файл из формата bam в формат bed. -i это входной файл
bedtools intersect -c -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b transcriptome.bed > intersects.bed Пересекает разметки, указанные после флажков -a, -b. -с добавляет в выходной файл дополнительный столбец с числом пересечений разметки -а разметкой -b(т.е. важно в каком порядке файлы пересекаем).
grep -vw 0 intersects.bed > compact.bed Выделяем строки с ненулевыми пересечениями. -v позволяет grep-ать все, кроме того, что соответствует регэкспу, -w переводит grep в режим поиска по словам.
uniq compact.bed > nr_compact.bed Избавляемся от повторяющихся строк

Для нашего гена существует несколько транскриптов. Будем описывать первый(NM_001122821): в нем 8 экзонов и 7 интронов, расположен ген на (+) цепи. Характеристики транскрипта, включая UTR:
Локализация: hg19 chr9:131,445,934-131,458,675
Длина: 12,742nt


Локализация(не включая UTR): hg19 chr9:131,446,175-131,456,943
Длина: 10,769nt

Белок участвует в апоптозе, транскрипции, сборке нуклеосом и других процессах. Подробнее можно узнать на странице транскрипта в UCSC или в UniProt.

Дополнительные задачи

  • Задание 1. Получить fastq из файла bam.
    Вход: файл с выравниваниями чтений на геном формата bam.
    Выход: файл формата fastq.
    Команда:

    bedtools bamtofastq -i  mapped_reads_sorted.bam -fq alignments.fastq

    Опции: -i — входной файл bam, -fq выходной файл fastq.

  • Задание 2. Получить файл с нуклеотидной последовательностью (.fasta) для гена.
    Вход: Последовательность нуклеотидов(тут хромосомы) в формате fasta, координаты желаемого участка в формате bed.
    Выход: Указанная последовательность в формате fasta.
    Команда:

    bedtools getfasta -fi ../chr9.fasta -bed gene.bed > SET_seq.fasta

    Опции: -fi — Файл с последовательностью из которой мы достаем участок, указанный в разметке -bed.

  • Задание 5. Набрать из хромосомы 1000 случайных фрагментов длины 200.
    Вход:Файл genome вида [имя хромосомы] [длина хромосомы], последовательность хромосомы в формате fasta. Промежуточный результат — файл с разметкой будущих фрагментов в формате bed.
    Выход: Файл fasta с последовательностями фрагментов.
    Команды:

    bedtools random -g chr9.genome -n 1000 -l 200 > random_fragments.bed
    bedtools getfasta -fi ../chr9.fasta -bed random_fragments.bed > random_fragments.fasta

    Опции: random: -g — это файл формата [имя хромосомы] [длина хромосомы], -n — число фрагментов, -l — длина фрагментов. Опции для getfasta см. выше.

© Пушкарев Сергей, 2018