Bedtools

Часть 1. Гены из практикума 12. Покрытие и особенности

Input Output Программа Что делает
chr10.1_sort.bam alin.bed
bedtools bamtobed -i chr10.1_sort.bam > alin.bed
Переводим файл с выравниванием в формате .bam в формат, удобный
для работы bedtools - .bed
alin.bed sorted.int.chr10.bed
bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b alin.bed -c >
 intersect.bed
grep -r "^chr10" intersect.bed | grep -r -v "0$" > sorted.int.chr10.bed
Получаем пересечение наших чтений с последовательностью генома (по координатам), для каждой хромосомы;
далее отбираем строки с интересующими нас данными - chr10, с покрытием более 0
alin.bed u.genes.bed
bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b alin.bed -u  > u.genes.bed
Практически то же самое, но число находок больше в сравнении с предыдущим способом; не выводится глубина покрытия
alin.bed wawb.bed
bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b alin.bed -wa -wb > wawb.bed
Каждое перекрывание выписывается в output одной строкой;
gencode.genes.bed, alin.bed cover.bed
bedtools coverage -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b alin.bed |
 grep -r "^chr10" > cover.bed
Определяем покрытие разметки нашими ридами

Комментарии к таблице

bedtools bamtobed -i sortedbam.bam > alin.bed
-i имя файла в формате .bam, который хотим перевести в формат .bed

bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b alin.bed -c -v ...
-a имя файла с разметкой генов для генома человека сборки hg19 в формате .bed
-b имя файла с выравниванием; из него будут браться координаты для пересечения с координатами разметки генов
-c флажок, который дает для каждого элемента (в нашем случае для каждой хромосомы) число пересечений с чтениями из файла с выравниваниями

bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b alin.bed -u > u.genes.bed
-u "флажок" позволяет выписывать данные о пересечении в том случае, если оно является ненулевым

bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b alin.bed -wa -wb > wawb.bed
-wa, -wb формат вывода, когда строка output-файла соответствует одному покрытию ридом

Ниже приведена таблица с основной информацией по найденным генам
С помощью команды bedtools coverage было определено покрытие последовательности хромосомы нашими ридами; данные по ней были "вырезаны" с помощью grep из общего файла с результатами по всему геному.

Ген Цепь Положение в геноме Продукт Покрытие (без удаления дубликатов) Покрытие (с удалением дубликатов Экзоны Полное название Функция
DDX21 - NC_000010.11 (68956123..68985069) protein_coding
DEAD box protein
63228 22 16 DExD-box helicase 21 Этот ген кодирует белок DEAD box, который является антигеном, распознаваемым аутоиммунными антителами пациента с болезнью watermelon stomach disease. Этот белок разматывает двухцепочечную РНК, складывает одноцепочечную РНК и может играть важную роль в биогенезе рибосомальной РНК, редактировании РНК, транспорте РНК и общей транскрипции.
RN7SL373P - misc_RNA 501 1 На NCBI и Ensembl записей не найдено

Часть 2. Дополнительные задания

Задание 1. Получите из файла c выравниванием файл с чтениями в формате fastq
Команда для запуска: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtofastq -i chr10.1.bam -fq chr10a.fastq
Выдача: chr10a.fastq
Задание 3. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов.
Исходные файлы: chr10.fasta, coord.bed
Команда для запуска: bedtools getfasta -fi ../chr10.fasta -bed coord.bed > DDX21.fasta
Выдача: DDX21.fasta
Задание 4. Объедините Ваши чтения в кластеры.
Команда для запуска: /P/y14/term3/block4/SNP/bedtools2/bin/bedtools cluster -i alin.bed -s > cluster.bed
Выдача: cluster.bed
© Бруман Софья, 2018