Практикум 13. Bedtools
Обязательная часть
Выравнивание ридов с референсом из 12 практикума в формате .bam было переведено в формат .bed. Затем с помощью bedtools intersect были получены те гены, на которые попали риды, с глубиной покрытия. Затем суммарное покрытие было посчитано в Excel для всех записей, а затем дубликаты по координатам были удалены.
Таблица с командами (исполнялись в папке /nfs/srv/databases/ngs/anton.vlasov/pr12):
Команда | Что делает |
bedtools bamtobed -i align.bam > align.bed | Перевод выравнивания из бинарного формата в формат .bed. |
bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b align.bed -c | grep -r "^chr8" | grep -w -v 0 > intersect.bed | Находит пересечение генома с выравниванием ридов, затем оставляет только те, которые относятся к 8-ой хромосоме, наконец, оставляет только те пересечения, покрытие которых не ноль. Параметр -c необходим для того, чтобы сразу получить покрытие. |
Таблица с обзором белков:
Ген | Покрытие | Уникальное покрытие | Полное имя | Положение в геноме | Координаты | Размер | Число экзонов/интронов | Цепь | Функция |
PRKDC | 219851 | 166685 | Protein kinase, DNA-activated, catalytic polypeptide | chr8:q11.21 | 48685669 - 48872743 | 187075 | 87/86 или 86/85 | - | Белок необходим для репарации ДНК, в частности для устранения двуцепочечных разрывов. |
MCM4 | 5417 | 5417 | Minichromosome maintenance complex component 4 | chr8:q11.21 | 48872763 - 48877272 | 4510 | 8/7 или 17/16 или 16/15 или 18/17 | + | Белок необходим для реплицакии ДНК |
Y_RNA | 246 | 246 | - | chr8:q11.21 | 48717640 - 48717740 | 101 | 1 | - | misc_RNA, функция неизвестна |
AC103686.1 | 90 | 90 | - | chr8:q11.21 | 48802619 - 48802691 | 73 | 1 | + | miRNA, функция неизвестна |
TPD52 | 4 | 4 | Tumor protein D52 | chr8:q21.13 | 80947105 - 80993010 | 45906 | от 6 до 8 экзонов, от 5 до 7 интронов | - | Цитозольный и периферический мембранный белок, который экспрессируется в раковых клетках |
Задачи по выбору
Таблица с командами (в папке /srv/databases/ngs/anton.vlasov)
Команда | Что делает | |
1. Получите из файла c выравниванием файл с чтениями в формате fastq. | ||
bedtools bamtofastq -i align.bam -fq align.fastq | -i <имя входного файла в формате .bam>, -fq <имя выходного файла в формате .fastq> | |
2. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов. | ||
bedtools getfasta -bed part.bed -fi chr8.fasta > part.fasta | -bed <Интервал, который необходимо извлечь в формате bed>, -fi <Последовательность, из которой необходимо извлечь интервал в формате fasta> Входной файл: part.bed. Выходной файл: part.fasta. |
|
3. Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов. Какова длина хромосомы в нуклеотидах? Сколько в результате получилось интервалов? | ||
bedtools makewindows -g chr8_len.txt -w 1000000 > split.bed | Файл chr8_len.txt: "chr8 146364022", где большое число - длина хромосомы, которая была подсчитана вручную. Параметр -w задаёт длину фрагмента. В результате получилось 147 интервалов. Выходной файл: split.bed. |