Bedtools

Навигация по сайту:

Bedtools

Обязательная часть

Из наличий у белка нескольких изоформ одинаковые экзоны изоформ вошли в intersects.bed несколько раз. Удалим их с помощью uniq. Новых белков кроме SET protein из предыдущего практикума не появилось. На ген лег 19081 рид (при том, что начинали в прошлом практикуме мы с датасетом из 19976 ридов, это, наверное, очень классный результат). Почти все риды из данных 12 практикума легли на этот ген. Видимо, это и объясняет то, что других генов htseq-count нам не нашел.

Использовавшиеся команды

Команда	Комментарий
bedtools bamtobed -i mapped_reads_sorted.bam > transcriptome.bed	Переводит файл из формата bam в формат bed. -i это входной файл
bedtools intersect -c -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b transcriptome.bed > intersects.bed	Пересекает разметки, указанные после флажков -a, -b. -с добавляет в выходной файл дополнительный столбец с числом пересечений разметки -а разметкой -b(т.е. важно в каком порядке файлы пересекаем).
grep -vw 0 intersects.bed > compact.bed	Выделяем строки с ненулевыми пересечениями. -v позволяет grep-ать все, кроме того, что соответствует регэкспу, -w переводит grep в режим поиска по словам.
uniq compact.bed > nr_compact.bed	Избавляемся от повторяющихся строк

Для нашего гена существует несколько транскриптов. Будем описывать первый(NM_001122821): в нем 8 экзонов и 7 интронов, расположен ген на (+) цепи. Характеристики транскрипта, включая UTR:
Локализация: hg19 chr9:131,445,934-131,458,675
Длина: 12,742nt

Локализация(не включая UTR): hg19 chr9:131,446,175-131,456,943
Длина: 10,769nt

Белок участвует в апоптозе, транскрипции, сборке нуклеосом и других процессах. Подробнее можно узнать на странице транскрипта в UCSC или в UniProt.

Дополнительные задачи

Задание 1. Получить fastq из файла bam.
Вход: файл с выравниваниями чтений на геном формата bam.
Выход: файл формата fastq.
Команда:
```
bedtools bamtofastq -i  mapped_reads_sorted.bam -fq alignments.fastq
```
Опции: -i — входной файл bam, -fq выходной файл fastq.
Задание 2. Получить файл с нуклеотидной последовательностью (.fasta) для гена.
Вход: Последовательность нуклеотидов(тут хромосомы) в формате fasta, координаты желаемого участка в формате bed.
Выход: Указанная последовательность в формате fasta.
Команда:
```
bedtools getfasta -fi ../chr9.fasta -bed gene.bed > SET_seq.fasta
```
Опции: -fi — Файл с последовательностью из которой мы достаем участок, указанный в разметке -bed.
Задание 5. Набрать из хромосомы 1000 случайных фрагментов длины 200.
Вход:Файл genome вида [имя хромосомы] [длина хромосомы], последовательность хромосомы в формате fasta. Промежуточный результат — файл с разметкой будущих фрагментов в формате bed.
Выход: Файл fasta с последовательностями фрагментов.
Команды:
```
bedtools random -g chr9.genome -n 1000 -l 200 > random_fragments.bed
bedtools getfasta -fi ../chr9.fasta -bed random_fragments.bed > random_fragments.fasta
```
Опции: random: -g — это файл формата [имя хромосомы] [длина хромосомы], -n — число фрагментов, -l — длина фрагментов. Опции для getfasta см. выше.

Учебный сайт Сергея Пушкарева

Навигация по сайту:

Bedtools

Обязательная часть

Дополнительные задачи