Команда |
Функция |
Выходной файл |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i ../hisat2-build.1/hisat2-build.1.bam > bed1.bed |
Команда bedtools bamtobed переводит файл в бинарном формате .bam (hisat2-build.1.bam) в формат .bed (bed1.bed). |
bed1.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -u -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b bed1.bed > intersect-u.bed |
Команда bedtools intersect показывает, как картируются чтения, поданные на вход под параметром -b, на гены, разметка которых подается под параметром -a. Параметр -u выводит в файл intersect-u.bed гены с нетронутыми координатами, на которые откартировался хотя бы один рид. Так мы сразу отсекаем огромное количество генов, на которые чтения вообще не откартировались. |
intersect-u.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -c -a intersect-u.bed -b bed1.bed > intersect-c.bed |
Здесь мы непосредствено смотрим, сколько ридов откартировалось на каждый ген и для этого используем параметр -c, который в конце каждой строки выходного файла (intersect-c.bed) добавляет число перекрываний координат чтений с разметкой данного гена. Под параметром -a подаем выходной файл из предыдущей команды (если бы подали изначальный файл с разметкой генов человека gencode.genes.bed, то на выходе получили очень много строк с нулями) под параметом -b - файл с ридами. |
intersect-c.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools sort -i intersect-c.bed > sorted.bed |
Команда bedtools sort сортирует гены из входного файла файла (intersect-c.bed) по хромосоме (в данном случае только одна хромосома, вторая) и по позиции гена, выходной файл - sorted.bed. Эта операция дала наглядную картину того, как распологаются гены относительно друг друга (как именно располагаются - описано под таблицей). Кроме того, в выходе предыдущей комнады много повторяющихся и пересекающихся участков одного гена, это нагружает картину происходящего. Поэтому надо воспользоваться командой merge, но она на вход принимает только файлы, к которым до этого применялась команда sort. |
sorted.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools merge -i sorted.bed -c 5 -o distinct > merged.bed |
Команда bedtools merge объединяет накладывающиеся и совпадающие координаты из входного файла (sorted.bed). Т е несколько вхождений с такими координатами сливаются в одно. Параметр -o указывает на операцию которую надо провести для столбца, указанного под параметом -с, для объединенных вхождений. В данном случае в пятом столбце находятся названия генов, -o distinct выводит через запятую все названия генов, координаты которых были объединены в одни координаты, причем без повторений. |
merged.bed |