| Команда | Функция | Выходной файл |
|---|---|---|
| /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i ../hisat2-build.1/hisat2-build.1.bam > bed1.bed | Команда bedtools bamtobed переводит файл в бинарном формате .bam (hisat2-build.1.bam) в формат .bed (bed1.bed). | bed1.bed |
| /P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -u -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b bed1.bed > intersect-u.bed | Команда bedtools intersect показывает, как картируются чтения, поданные на вход под параметром -b, на гены, разметка которых подается под параметром -a. Параметр -u выводит в файл intersect-u.bed гены с нетронутыми координатами, на которые откартировался хотя бы один рид. Так мы сразу отсекаем огромное количество генов, на которые чтения вообще не откартировались. | intersect-u.bed |
| /P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -c -a intersect-u.bed -b bed1.bed > intersect-c.bed | Здесь мы непосредствено смотрим, сколько ридов откартировалось на каждый ген и для этого используем параметр -c, который в конце каждой строки выходного файла (intersect-c.bed) добавляет число перекрываний координат чтений с разметкой данного гена. Под параметром -a подаем выходной файл из предыдущей команды (если бы подали изначальный файл с разметкой генов человека gencode.genes.bed, то на выходе получили очень много строк с нулями) под параметом -b - файл с ридами. | intersect-c.bed |
| /P/y14/term3/block4/SNP/bedtools2/bin/bedtools sort -i intersect-c.bed > sorted.bed | Команда bedtools sort сортирует гены из входного файла файла (intersect-c.bed) по хромосоме (в данном случае только одна хромосома, вторая) и по позиции гена, выходной файл - sorted.bed. Эта операция дала наглядную картину того, как распологаются гены относительно друг друга (как именно располагаются - описано под таблицей). Кроме того, в выходе предыдущей комнады много повторяющихся и пересекающихся участков одного гена, это нагружает картину происходящего. Поэтому надо воспользоваться командой merge, но она на вход принимает только файлы, к которым до этого применялась команда sort. | sorted.bed |
| /P/y14/term3/block4/SNP/bedtools2/bin/bedtools merge -i sorted.bed -c 5 -o distinct > merged.bed | Команда bedtools merge объединяет накладывающиеся и совпадающие координаты из входного файла (sorted.bed). Т е несколько вхождений с такими координатами сливаются в одно. Параметр -o указывает на операцию которую надо провести для столбца, указанного под параметом -с, для объединенных вхождений. В данном случае в пятом столбце находятся названия генов, -o distinct выводит через запятую все названия генов, координаты которых были объединены в одни координаты, причем без повторений. | merged.bed |
Больше всего ридов легло на ген NCL, что подтверждает выводы предыдущего практикума; вероятно его изначально и хотели транскрибировать и отсеквенировать. Помимо NCL, присутствуют гены малых ядрышковых РНК SNORA75, SNORD20, SNORD82, а также ген AC017104, помеченный в старой версии GRCh37 как uncharacterized protein, а в GRCh38 как lincRNA (long intergenic noncoding RNA). Картина взаимного расположения этих генов становится ясной, благодаря командам sort и merge. Так, становится понятно, что ген AC017104 находится перед NCL, а SNORA75, SNORD20 и SNORD82 располагаются в разных интронах гена NCL.
| ID Ensembl | Название | Описание | Координаты (GRCh37) | Размер | Кол-во интронов | Кол-во экзонов | Цепь | Кол-во транскриптов |
|---|---|---|---|---|---|---|---|---|
| ENSG00000233538 | AC017104 | lincRNA | chr2:232,316,906-232,317,864 | 959 | 2 | 3 | прямая | 1 |
| ENSG00000115053 | NCL | protein coding: кодирует белок нуклеолин | chr2:232,318,242-232,348,352 | 30111 | Для транскрипта NCL-001 (ENST00000322723): 13 | 14 | обратная | 10 |
| ENSG00000206885 | SNORA75 | snoRNA | chr2:232,320,511-232,320,647 | 137 | 0 | 1 | обратная | 1 |
| ENSG00000207280 | SNORD20 | snoRNA | chr2:232,321,155-232,321,234 | 80 | 0 | 1 | обратная | 1 |
| ENSG00000202400 | SNORD82 | snoRNA | chr2:232,325,082-232,325,151 | 70 | 0 | 1 | обратная | 1 |
| Номер задания | Команда | Функция | Выходной файл |
|---|---|---|---|
| 1 | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtofastq -i ../hisat2-build.1/hisat2-build.1.bam -fq bamtofastq.fq | Команда bedtools bamtofastq конвертирует чтения из файла с выравниванием в формате .bam в файл в формате .fastq. | bamtofastq.fq |
| 4 | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools sort -i bed1.bed | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools cluster > cluster.bed | Команда bedtools cluster присваивает каждому вхождению из файла, заранее отсортированного программой sort, cluster ID (последняя цифра в кажой строке выходного файла). Программа объединяет в кластеры те вхождения из файла bed1.bed (файл с выровненными чтениями из обязательной части практикума), координаты которых совпадают/перекрываются. | cluster.bed |
| 9 | /P/y14/term3/block4/SNP/bedtools2/bin/bedtools subtract -a intersect-u.bed -b bed1.bed > subtract.bed | Команда bedtools substract подает на выход только те координаты вхождений из файла под параметром -a (intersect-u.bed), которые ни разу не перекрылись с координатами вхождений из файла под параметром -b (bed1.bed). Файл intersect-u.bed был получен при выполнении обязательной части практикума и содержит только те гены, разметка которых хотя бы один раз пересекалась с координатами ридов из файла bed1.bed. | subtract.bed |
© Агаева Зара, 2018