Bedtools

Часть I: обязательное задание

Таблица 1. Описание команд
Команда Функция Выходной файл
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i ../hisat2-build.1/hisat2-build.1.bam > bed1.bed Команда bedtools bamtobed переводит файл в бинарном формате .bam (hisat2-build.1.bam) в формат .bed (bed1.bed). bed1.bed
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -u -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b bed1.bed > intersect-u.bed Команда bedtools intersect показывает, как картируются чтения, поданные на вход под параметром -b, на гены, разметка которых подается под параметром -a. Параметр -u выводит в файл intersect-u.bed гены с нетронутыми координатами, на которые откартировался хотя бы один рид. Так мы сразу отсекаем огромное количество генов, на которые чтения вообще не откартировались. intersect-u.bed
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -c -a intersect-u.bed -b bed1.bed > intersect-c.bed Здесь мы непосредствено смотрим, сколько ридов откартировалось на каждый ген и для этого используем параметр -c, который в конце каждой строки выходного файла (intersect-c.bed) добавляет число перекрываний координат чтений с разметкой данного гена. Под параметром -a подаем выходной файл из предыдущей команды (если бы подали изначальный файл с разметкой генов человека gencode.genes.bed, то на выходе получили очень много строк с нулями) под параметом -b - файл с ридами. intersect-c.bed
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools sort -i intersect-c.bed > sorted.bed Команда bedtools sort сортирует гены из входного файла файла (intersect-c.bed) по хромосоме (в данном случае только одна хромосома, вторая) и по позиции гена, выходной файл - sorted.bed. Эта операция дала наглядную картину того, как распологаются гены относительно друг друга (как именно располагаются - описано под таблицей). Кроме того, в выходе предыдущей комнады много повторяющихся и пересекающихся участков одного гена, это нагружает картину происходящего. Поэтому надо воспользоваться командой merge, но она на вход принимает только файлы, к которым до этого применялась команда sort. sorted.bed
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools merge -i sorted.bed -c 5 -o distinct > merged.bed Команда bedtools merge объединяет накладывающиеся и совпадающие координаты из входного файла (sorted.bed). Т е несколько вхождений с такими координатами сливаются в одно. Параметр -o указывает на операцию которую надо провести для столбца, указанного под параметом -с, для объединенных вхождений. В данном случае в пятом столбце находятся названия генов, -o distinct выводит через запятую все названия генов, координаты которых были объединены в одни координаты, причем без повторений. merged.bed

Больше всего ридов легло на ген NCL, что подтверждает выводы предыдущего практикума; вероятно его изначально и хотели транскрибировать и отсеквенировать. Помимо NCL, присутствуют гены малых ядрышковых РНК SNORA75, SNORD20, SNORD82, а также ген AC017104, помеченный в старой версии GRCh37 как uncharacterized protein, а в GRCh38 как lincRNA (long intergenic noncoding RNA). Картина взаимного расположения этих генов становится ясной, благодаря командам sort и merge. Так, становится понятно, что ген AC017104 находится перед NCL, а SNORA75, SNORD20 и SNORD82 располагаются в разных интронах гена NCL.

Таблица 2. Описание генов
ID Ensembl Название Описание Координаты (GRCh37) Размер Кол-во интронов Кол-во экзонов Цепь Кол-во транскриптов
ENSG00000233538 AC017104 lincRNA chr2:232,316,906-232,317,864 959 2 3 прямая 1
ENSG00000115053 NCL protein coding: кодирует белок нуклеолин chr2:232,318,242-232,348,352 30111 Для транскрипта NCL-001 (ENST00000322723): 13 14 обратная 10
ENSG00000206885 SNORA75 snoRNA chr2:232,320,511-232,320,647 137 0 1 обратная 1
ENSG00000207280 SNORD20 snoRNA chr2:232,321,155-232,321,234 80 0 1 обратная 1
ENSG00000202400 SNORD82 snoRNA chr2:232,325,082-232,325,151 70 0 1 обратная 1

Часть II: дополнительные задания

Таблица 3. Описание команд
Номер задания Команда Функция Выходной файл
1 /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtofastq -i ../hisat2-build.1/hisat2-build.1.bam -fq bamtofastq.fq Команда bedtools bamtofastq конвертирует чтения из файла с выравниванием в формате .bam в файл в формате .fastq. bamtofastq.fq
4 /P/y14/term3/block4/SNP/bedtools2/bin/bedtools sort -i bed1.bed | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools cluster > cluster.bed Команда bedtools cluster присваивает каждому вхождению из файла, заранее отсортированного программой sort, cluster ID (последняя цифра в кажой строке выходного файла). Программа объединяет в кластеры те вхождения из файла bed1.bed (файл с выровненными чтениями из обязательной части практикума), координаты которых совпадают/перекрываются. cluster.bed
9 /P/y14/term3/block4/SNP/bedtools2/bin/bedtools subtract -a intersect-u.bed -b bed1.bed > subtract.bed Команда bedtools substract подает на выход только те координаты вхождений из файла под параметром -a (intersect-u.bed), которые ни разу не перекрылись с координатами вхождений из файла под параметром -b (bed1.bed). Файл intersect-u.bed был получен при выполнении обязательной части практикума и содержит только те гены, разметка которых хотя бы один раз пересекалась с координатами ридов из файла bed1.bed. subtract.bed

© Агаева Зара, 2018