Команда |
Функция |
Выходной файл |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i ../hisat2-build.1/hisat2-build.1.bam > bed1.bed |
Команда bedtools bamtobed переводит файл в бинарном формате .bam (hisat2-build.1.bam) в формат .bed (bed1.bed). |
bed1.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -u -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b bed1.bed > intersect-u.bed |
Команда bedtools intersect показывает, как картируются чтения, поданные на вход под параметром -b, на гены, разметка которых подается под параметром -a. Параметр -u выводит в файл intersect-u.bed гены с нетронутыми координатами, на которые откартировался хотя бы один рид. Так мы сразу отсекаем огромное количество генов, на которые чтения вообще не откартировались. |
intersect-u.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -c -a intersect-u.bed -b bed1.bed > intersect-c.bed |
Здесь мы непосредствено смотрим, сколько ридов откартировалось на каждый ген и для этого используем параметр -c, который в конце каждой строки выходного файла (intersect-c.bed) добавляет число перекрываний координат чтений с разметкой данного гена. Под параметром -a подаем выходной файл из предыдущей команды (если бы подали изначальный файл с разметкой генов человека gencode.genes.bed, то на выходе получили очень много строк с нулями) под параметом -b - файл с ридами. |
intersect-c.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools sort -i intersect-c.bed > sorted.bed |
Команда bedtools sort сортирует гены из входного файла файла (intersect-c.bed) по хромосоме (в данном случае только одна хромосома, вторая) и по позиции гена, выходной файл - sorted.bed. Эта операция дала наглядную картину того, как распологаются гены относительно друг друга (как именно располагаются - описано под таблицей). Кроме того, в выходе предыдущей комнады много повторяющихся и пересекающихся участков одного гена, это нагружает картину происходящего. Поэтому надо воспользоваться командой merge, но она на вход принимает только файлы, к которым до этого применялась команда sort. |
sorted.bed |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools merge -i sorted.bed -c 5 -o distinct > merged.bed |
Команда bedtools merge объединяет накладывающиеся и совпадающие координаты из входного файла (sorted.bed). Т е несколько вхождений с такими координатами сливаются в одно. Параметр -o указывает на операцию которую надо провести для столбца, указанного под параметом -с, для объединенных вхождений. В данном случае в пятом столбце находятся названия генов, -o distinct выводит через запятую все названия генов, координаты которых были объединены в одни координаты, причем без повторений. |
merged.bed |
Больше всего ридов легло на ген NCL, что подтверждает выводы предыдущего практикума; вероятно его изначально и хотели транскрибировать и отсеквенировать. Помимо NCL, присутствуют гены малых ядрышковых РНК SNORA75, SNORD20, SNORD82, а также ген AC017104, помеченный в старой версии GRCh37 как uncharacterized protein, а в GRCh38 как lincRNA (long intergenic noncoding RNA). Картина взаимного расположения этих генов становится ясной, благодаря командам sort и merge. Так, становится понятно, что ген AC017104 находится перед NCL, а SNORA75, SNORD20 и SNORD82 располагаются в разных интронах гена NCL.
ID Ensembl |
Название |
Описание |
Координаты (GRCh37) |
Размер |
Кол-во интронов |
Кол-во экзонов |
Цепь |
Кол-во транскриптов |
ENSG00000233538 |
AC017104 |
lincRNA |
chr2:232,316,906-232,317,864 |
959 |
2 |
3 |
прямая |
1 |
ENSG00000115053 |
NCL |
protein coding: кодирует белок нуклеолин |
chr2:232,318,242-232,348,352 |
30111 |
Для транскрипта NCL-001 (ENST00000322723): 13 |
14 |
обратная |
10 |
ENSG00000206885 |
SNORA75 |
snoRNA |
chr2:232,320,511-232,320,647 |
137 |
0 |
1 |
обратная |
1 |
ENSG00000207280 |
SNORD20 |
snoRNA |
chr2:232,321,155-232,321,234 |
80 |
0 |
1 |
обратная |
1 |
ENSG00000202400 |
SNORD82 |
snoRNA |
chr2:232,325,082-232,325,151 |
70 |
0 |
1 |
обратная |
1 |
Номер задания |
Команда |
Функция |
Выходной файл |
1 |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtofastq -i ../hisat2-build.1/hisat2-build.1.bam -fq bamtofastq.fq |
Команда bedtools bamtofastq конвертирует чтения из файла с выравниванием в формате .bam в файл в формате .fastq. |
bamtofastq.fq |
4 |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools sort -i bed1.bed | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools cluster > cluster.bed |
Команда bedtools cluster присваивает каждому вхождению из файла, заранее отсортированного программой sort, cluster ID (последняя цифра в кажой строке выходного файла). Программа объединяет в кластеры те вхождения из файла bed1.bed (файл с выровненными чтениями из обязательной части практикума), координаты которых совпадают/перекрываются. |
cluster.bed |
9 |
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools subtract -a intersect-u.bed -b bed1.bed > subtract.bed |
Команда bedtools substract подает на выход только те координаты вхождений из файла под параметром -a (intersect-u.bed), которые ни разу не перекрылись с координатами вхождений из файла под параметром -b (bed1.bed). Файл intersect-u.bed был получен при выполнении обязательной части практикума и содержит только те гены, разметка которых хотя бы один раз пересекалась с координатами ридов из файла bed1.bed. |
subtract.bed |
© Агаева Зара, 2018