Анализ и картирование чтений

Для начала были проанализированны чтения одной из биологических реплик 10 хромосомы.


Как видно чтения имеют хорошее качество и не нуждаются в триммировании. Затем было проведено картирование чтений, в результате которого 98,67% из 15462 ридов оказались картированы, а 205 нет. После этого полученный файл в формате .sam был переведен в бинарный файл формата .bam, была проведена сортировка ыравнивания чтений с референсом по координате в референсе начала чтения, и полученный отсортированный был проиндексирован.

Анализ картирования

Для того чтобы узнать на какие гены легли прочтения была использована программа htseq-count. После выделения всех строчек с генами, у которых было 0 ридов был получен файл с содержимым:
ENSG00000165732.8 14643
ENSG00000266122.1 3
__no_feature 611
__not_aligned 205
Из него видно, что большая часть ридов связана с одним геном, и лишь 3 из них легли на другой. Для 611 чтений не нашлось границ генов, и 205 которые вообще не были картированы. Границ генов могло не найтись, если риды, например, содержали промоторную область гена. Ген ENSG00000165732.8 кодирует DEAD box белок, имеющий функцию РНК-хеликазы. Ген ENSG00000266122.1 в свою очередь является "отозванным" псевдогеном, который перекрывался с геном DEAD box белка.

Таблица 1 с использованными командами представлена ниже:

Таблица 1. Команды и результаты
Команда Результат
fastqc chr10.1.fastq Zip-файл и файл html с анализом исходных чтений
hisat2 --no-softclip -x /nfs/srv/databases/ngs/ivanmike/chr10 -U /nfs/srv/databases/ngs/ivanmike/chr10.1.fastq -S chr10.1.sam Картирование чтений и вывод наложений на геном в файл chr10.1.sam. Опция --no-spliced-alignment оказалась не нужна, т.к. могли прочитаться экзоны, которые в геноме были разделены интроном и поэтому чтение может лечь не полностью (с разрывом на месте интрона).
samtools view -b chr10.1.sam -o chr10.1.bam Перевод файла из формата .sam в бинарный формат .bam
samtools sort chr10.1.bam chr10.1_1 сортировка выравнивания чтений с референсом по координате в референсе начала чтения
samtools index chr10.1_1.bam Индексирование ридов
htseq-count -f bam -s no chr10.1_1.bam /nfs/srv/databases/ngs/Human/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf > htseq Подсчет ридов для каждого из генов. Опция -f - формат входного файла, -s - по какой из цепей выравнены чтения (значение no означает неопределенность направления), -i - атрибут, использующийся как feature ID (по-умолчанию нужный), -m - режим для неожнозначных выравниваний (по-умолчанию нужный)
grep -wv 0 htseq > htseq.txt Выделение в отдельный файл всех строчек с генами, у которых было 0 ридов был получен файл с содержимым
Назад
На главную