| Определение покрытия генов чтениями |
• Для выполнения практикума был использован файл alignsorted.bam из практикума 12;
Команда | Операция | Результат |
bedtools bamtobed -i alignsorted.bam > alignsorted.bed | Перевод файла формата .bam в формат .bed |
файл alignsorted.bed |
grep chr4 /P/y14/term3/ block4/SNP/rnaseq_reads/gencode.genes.bed > genes.bed | Выбор строк с четвертой хромосомой из файла gencode.genes.bed и создание файла genes.bed в своей рабочей директории (для удобства) |
файл genes.bed |
bedtools intersect -a genes.bed -b alignsorted.bed -u > file | Поиск ненулевых (параметр -u) пересечений в файлах genes.bed и alignsorted.bed |
файл file |
bedtools intersect -a alignsorted.bed -b file -c > file2 | Определение точного числа ненулевых пересечений; все интервалы из файла file имеют ненулевое пересечение с alignsorted.bed (из предыдущего пункта), параметр -c определяет число пересечений |
файл file2 |
Описание генов представлено в таблице 2:
Таблица 2Название гена | Положение в геноме (сборка h38) | Цепь | Тип гена | Описание продукта |
WDR1 | chr4:10,074,339-10,116,860 | - | protein_coding | Белок, содержащий консервативные WD домены, необходимые для белок-белковых контактов |
RP11-448G15.3 | hg38 chr4:10068089-10073019 | - | sense_overlapping | Ген этой РНК лежит в интроне крупного гена белка WDR1 |
MIR3138 | hg38 chr4:10,078,611-10,078,692 | - | miRNA | Некодирующая микроРНК, участвующая в посттранскрипционной регуляции генной экспрессии |
RNA5SP155 | hg38 chr4:10115756-10115884 | - | rRNA | Рибосомальная РНК |
| Операции Bedtools |
1. Получите из файла в выравниванием файл с чтениями в формате fastq
bedtools bamtofastq -i alignsorted.bam -fq alignsorted.fastq
- Результат: файл alignsorted.fastq
2. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов
Исходные файлы: chr4.fasta, wdr1.bed
bedtools getfasta -fi chr4.fasta -bed wdr1.bed > wdr1.fasta
- Результат: файл wdr1.fasta
3. Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов. Какова длина хромосомы в нуклеотидах? Сколько в результате получилось интервалов?
Был создан файл chr4length.txt, содержащий длину хромосомы - 191154276 нуклеотидов (длина получена командой infoseq)
bedtools makewindows -g chr4length.txt -w 1000000 > intervals.bed
- Результат: файл intervals.bed, в файле 192 строчки и, соответственно, 192 интервала
4. Объедините Ваши чтения в кластеры (используйте bed файл с выровненными чтениями из Обязательной части задания)
bedtools cluster -i alignsorted.bed > clusters.bed
- Результат: файл clusters.bed
5. Наберите из Вашей хромосомы 1000 случайных фрагментов по 200 нуклеотидов
bedtools random -g genes.bed -n 1000 -l 200 > random.bed
- Результат: файл random.bed
7. Получите координаты одного из покрытых Вашими чтениями генов, расширенные на 1000 нуклеотидов в обе стороны
bedtools slop -i wdr1.bed -g genes.bed -b 1000 > wdr1_1000.bed
- Результат: файл wdr1_1000.bed
8. Получите координаты одного из покрытых Вашими чтениями генов, сдвинутые на 500 нуклеотидов ближе к началу хромосомы
bedtools shift -i wdr1.bed -g genes.bed -s -500 > wdr1_shifted.bed
- Результат: файл wdr1_shifted.bed
©Машковская Анна, 2018