Главная
О себе
Список курсов
Сайт ФББ

Практикум 13. Bedtools

Обязательная часть

Выравнивание ридов с референсом из 12 практикума в формате .bam было переведено в формат .bed. Затем с помощью bedtools intersect были получены те гены, на которые попали риды, с глубиной покрытия. Затем суммарное покрытие было посчитано в Excel для всех записей, а затем дубликаты по координатам были удалены.

Таблица с командами (исполнялись в папке /nfs/srv/databases/ngs/anton.vlasov/pr12):

Команда Что делает
bedtools bamtobed -i align.bam > align.bed Перевод выравнивания из бинарного формата в формат .bed.
bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b align.bed -c | grep -r "^chr8" | grep -w -v 0 > intersect.bed Находит пересечение генома с выравниванием ридов, затем оставляет только те, которые относятся к 8-ой хромосоме, наконец, оставляет только те пересечения, покрытие которых не ноль. Параметр -c необходим для того, чтобы сразу получить покрытие.

Таблица с обзором белков:

ГенПокрытиеУникальное
покрытие
Полное имяПоложение в геномеКоординатыРазмерЧисло
экзонов/интронов
ЦепьФункция
PRKDC219851166685Protein kinase, DNA-activated, catalytic polypeptidechr8:q11.2148685669 - 4887274318707587/86 или 86/85-Белок необходим для репарации ДНК, в частности для устранения двуцепочечных разрывов.
MCM454175417Minichromosome maintenance complex component 4chr8:q11.2148872763 - 4887727245108/7 или 17/16 или 16/15 или 18/17+Белок необходим для реплицакии ДНК
Y_RNA246246-chr8:q11.2148717640 - 487177401011-misc_RNA, функция неизвестна
AC103686.19090-chr8:q11.2148802619 - 48802691731+miRNA, функция неизвестна
TPD5244Tumor protein D52chr8:q21.1380947105 - 80993010 45906от 6 до 8 экзонов, от 5 до 7 интронов-Цитозольный и периферический мембранный белок, который экспрессируется в раковых клетках

Задачи по выбору

Таблица с командами (в папке /srv/databases/ngs/anton.vlasov)

Команда Что делает
1. Получите из файла c выравниванием файл с чтениями в формате fastq.
bedtools bamtofastq -i align.bam -fq align.fastq -i <имя входного файла в формате .bam>, -fq <имя выходного файла в формате .fastq>
2. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов.
bedtools getfasta -bed part.bed -fi chr8.fasta > part.fasta -bed <Интервал, который необходимо извлечь в формате bed>, -fi <Последовательность, из которой необходимо извлечь интервал в формате fasta>
Входной файл: part.bed.
Выходной файл: part.fasta.
3. Разбейте свою хромосому на фрагменты по 1 млн нуклеотидов. Какова длина хромосомы в нуклеотидах? Сколько в результате получилось интервалов?
bedtools makewindows -g chr8_len.txt -w 1000000 > split.bed Файл chr8_len.txt: "chr8    146364022", где большое число - длина хромосомы, которая была подсчитана вручную. Параметр -w задаёт длину фрагмента. В результате получилось 147 интервалов.
Выходной файл: split.bed.