Bedtools

~mashkovskayaav

| Определение покрытия генов чтениями |


• Для выполнения практикума был использован файл alignsorted.bam из практикума 12;

Таблица 1
Команда Операция Результат
bedtools bamtobed -i alignsorted.bam > alignsorted.bed Перевод файла формата .bam в формат .bed
файл alignsorted.bed
grep chr4 /P/y14/term3/ block4/SNP/rnaseq_reads/gencode.genes.bed > genes.bed

Выбор строк с четвертой хромосомой из файла gencode.genes.bed и создание файла genes.bed в своей рабочей директории (для удобства)
файл genes.bed
bedtools intersect -a genes.bed -b alignsorted.bed -u > file

Поиск ненулевых (параметр -u) пересечений в файлах genes.bed и alignsorted.bed
файл file
bedtools intersect -a alignsorted.bed -b file -c > file2

Определение точного числа ненулевых пересечений; все интервалы из файла file имеют ненулевое пересечение с alignsorted.bed (из предыдущего пункта), параметр -c определяет число пересечений
файл file2

Описание генов представлено в таблице 2:

Таблица 2
Название гена Положение в геноме (сборка h38) Цепь Тип гена Описание продукта
WDR1 chr4:10,074,339-10,116,860 - protein_coding Белок, содержащий консервативные WD домены, необходимые для белок-белковых контактов
RP11-448G15.3 hg38 chr4:10068089-10073019 - sense_overlapping Ген этой РНК лежит в интроне крупного гена белка WDR1
MIR3138 hg38 chr4:10,078,611-10,078,692 - miRNA Некодирующая микроРНК, участвующая в посттранскрипционной регуляции генной экспрессии
RNA5SP155 hg38 chr4:10115756-10115884 - rRNA Рибосомальная РНК


| Операции Bedtools |


1. Получите из файла в выравниванием файл с чтениями в формате fastq

bedtools bamtofastq -i alignsorted.bam -fq alignsorted.fastq

- Результат: файл alignsorted.fastq


2. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов

Исходные файлы: chr4.fasta, wdr1.bed

bedtools getfasta -fi chr4.fasta -bed wdr1.bed > wdr1.fasta

- Результат: файл wdr1.fasta


3. Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов. Какова длина хромосомы в нуклеотидах? Сколько в результате получилось интервалов?

Был создан файл chr4length.txt, содержащий длину хромосомы - 191154276 нуклеотидов (длина получена командой infoseq)

bedtools makewindows -g chr4length.txt -w 1000000 > intervals.bed

- Результат: файл intervals.bed, в файле 192 строчки и, соответственно, 192 интервала


4. Объедините Ваши чтения в кластеры (используйте bed файл с выровненными чтениями из Обязательной части задания)

bedtools cluster -i alignsorted.bed > clusters.bed

- Результат: файл clusters.bed


5. Наберите из Вашей хромосомы 1000 случайных фрагментов по 200 нуклеотидов

bedtools random -g genes.bed -n 1000 -l 200 > random.bed

- Результат: файл random.bed


7. Получите координаты одного из покрытых Вашими чтениями генов, расширенные на 1000 нуклеотидов в обе стороны

bedtools slop -i wdr1.bed -g genes.bed -b 1000 > wdr1_1000.bed

- Результат: файл wdr1_1000.bed


8. Получите координаты одного из покрытых Вашими чтениями генов, сдвинутые на 500 нуклеотидов ближе к началу хромосомы

bedtools shift -i wdr1.bed -g genes.bed -s -500 > wdr1_shifted.bed

- Результат: файл wdr1_shifted.bed


©Машковская Анна, 2018