Bedtools

Обязательная часть

В качестве выравнивания прочтений с референсом был взят файл chr3_sort.bam из 12 практикума.

КомандаФункция
bedtools bamtobed -i chr3_sort.bam > chr3_sort.bedПереводит выравнивания из формата .bam в формат .bed
bedtools coverage -counts -a gencode.genes.bed -b chr3_sort.bed | grep -w -v 0 > coverage_chr3.bedНаходит глубину покрытия генов ридами.
Опция -counts необходима для того, чтобы выводить только число вхождений, а не считать долю покрытия.

Итог:
1. 21017 чтений попали в ген TFRC, кодирующий трансферриновый рецептор.
2. В текущей сборке ген находится по координатам NC_000003.12 (196018694..196082161, complement).
3. Включает 19 экзонов и 18 интронов.
4. Размер: 63,467 пар оснований.
5. 65 ридов попали в псевдоген RNU7-18P длиной 61 пар оснований (по итогу работы программы и 259 по данным NCBI).
Используемые источники:

NCBI (TFRC)
UCSC Genome Browser (TFRC)
NCBI (RNU7-18P)

Дополнительная часть

1. Получите из файла в выравниванием файл с чтениями в формате fastq

КомандаФункция
bedtools bamtofastq -i chr3_sort.bam -fq chr3_sort.fastq-i (имя входного .bam),
-fq (имя желаемого .fastq)

2. Получите файл с нуклеотидной последовательностью (.fasta) для одного из покрытых Вашими чтениями генов.

КомандаФункция
bedtools getfasta -fi chr3.fasta -bed 2.bed -name > 2.fasta-bed: 2.bed
Выводной файл: 2.fasta
опция -name для того, чтобы имя fasta совпадало с 4ой колонкой в файле 2.bed
Входной файл
Выводной файл

4. Объедините Ваши чтения в кластеры (используйте bed файл с выровненными чтениями из Обязательной части задания).

КомандаФункция
bedtools cluster -i chr3_sort.bed > 4.txtЧисло кластеров (15)

© Макиевская Кьяра, 2018