Навигация по сайту:
|
Bedtools
Обязательная часть
Из наличий у белка нескольких изоформ одинаковые экзоны изоформ вошли в intersects.bed несколько раз. Удалим их с помощью uniq. Новых белков кроме
SET protein из предыдущего практикума не появилось. На ген лег 19081 рид (при том, что начинали в прошлом практикуме мы с
датасетом из 19976 ридов, это, наверное, очень классный результат). Почти все риды из данных 12 практикума легли на этот ген. Видимо, это и объясняет то, что других генов
htseq-count нам не нашел.
Использовавшиеся команды
Команда |
Комментарий |
bedtools bamtobed -i mapped_reads_sorted.bam > transcriptome.bed |
Переводит файл из формата bam в формат bed. -i это входной файл |
bedtools intersect -c -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b transcriptome.bed > intersects.bed |
Пересекает разметки, указанные после флажков -a, -b. -с добавляет в выходной файл дополнительный столбец с числом пересечений разметки -а
разметкой -b(т.е. важно в каком порядке файлы пересекаем). |
grep -vw 0 intersects.bed > compact.bed |
Выделяем строки с ненулевыми пересечениями. -v позволяет grep-ать все, кроме того, что соответствует регэкспу, -w
переводит grep в режим поиска по словам. |
uniq compact.bed > nr_compact.bed |
Избавляемся от повторяющихся строк |
Для нашего гена существует несколько транскриптов. Будем описывать первый(NM_001122821): в нем 8 экзонов и 7 интронов, расположен ген на (+)
цепи. Характеристики транскрипта, включая UTR: Локализация: hg19 chr9:131,445,934-131,458,675 Длина: 12,742nt
Локализация(не включая UTR): hg19 chr9:131,446,175-131,456,943 Длина: 10,769nt
Белок участвует в апоптозе, транскрипции, сборке нуклеосом и других процессах. Подробнее можно узнать на странице транскрипта в UCSC
или в UniProt.
Дополнительные задачи
-
Задание 1. Получить fastq из файла bam.
Вход: файл с выравниваниями чтений на геном формата bam.
Выход: файл формата fastq.
Команда:
bedtools bamtofastq -i mapped_reads_sorted.bam -fq alignments.fastq
Опции: -i — входной файл bam, -fq выходной файл fastq.
-
Задание 2. Получить файл с нуклеотидной последовательностью (.fasta) для гена.
Вход: Последовательность нуклеотидов(тут хромосомы) в формате fasta, координаты желаемого участка в формате bed.
Выход: Указанная последовательность в формате fasta.
Команда:
bedtools getfasta -fi ../chr9.fasta -bed gene.bed > SET_seq.fasta
Опции: -fi — Файл с последовательностью из которой мы достаем участок, указанный в разметке -bed.
-
Задание 5. Набрать из хромосомы 1000 случайных фрагментов длины 200.
Вход:Файл genome вида [имя хромосомы] [длина хромосомы], последовательность хромосомы в формате fasta. Промежуточный результат — файл
с разметкой будущих фрагментов в формате bed.
Выход: Файл fasta с последовательностями фрагментов.
Команды:
bedtools random -g chr9.genome -n 1000 -l 200 > random_fragments.bed
bedtools getfasta -fi ../chr9.fasta -bed random_fragments.bed > random_fragments.fasta
Опции: random: -g — это файл формата [имя хромосомы] [длина хромосомы], -n — число фрагментов,
-l — длина фрагментов. Опции для getfasta см. выше.
|