Анализ транскриптомов. Bedtools.

Ход работы

Работаем с 3 хромосомой в моей дирректории /nfs/srv/databases/ngs/aleksandrpavele
Скачиваем chr3_1.fastq
Анализируем качество чтений: fastqc chr3.1.fastq (Рис.1)
Производим очищение чтений: java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr3.1.fastq trim3.1.fastq TRAILING:20 MINLEN:50
Анализируем качество очищенных чтений: fastqc trim3.1.fastq (Рис.2)

Картируем очищенные чтения на референс: hisat2 -x index3 -U trim3.1.fastq -S trim3.1align.sam --no-softclip

21152 reads; of these:
  21152 (100.00%) were unpaired; of these:
    154 (0.73%) aligned 0 times
    20977 (99.17%) aligned exactly 1 time
    21 (0.10%) aligned >1 times
99.27% overall alignment rate

Конвертируем выравнивания чтений в бинарный файл: samtools view -b trim3.1align.sam -o trim3.1align.bam
Сортировка выравнивания: samtools sort trim3.1align.bam trim3.1alignsorted
Индексируем отсортированные выравнивания: samtools index trim3.1alignsorted.bam
Подсчет чтений: htseq-count -f bam -s no -i gene_id -m union trim3.1alignsorted.bam /nfs/srv/databases/ngs/Human/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf > my_seq.count
Ищем не нулевые строки: grep -w -v 0 my_seq.count > results.txt

Отметим, что очистка никак не повлияла на качество чтений (разве что были удалены 59 ридов, видимо из-за параметра MINLEN:50) После картирования мы получили, что 99.17% чтений выравнялись на референс. Хоть в моих чтениях присутствуют риды, которые не легли на референс, а так же 21 рид, которые легли несколько раз, по-моему качество чтения хорошее. Кстати, в команде hisat2 был убран параметр --no-spliced-alignment, т.к. мы работаем с РНК, которая может быть задействована в сплайсинге, а значит выравнивания могут разрываться (участки перестанавливаться). Опции htseq-count: -f указывает формат входного файла, опция -s говорит, должна ли программа учитывать цепь, -i - как программа назовет гены, -m - как программа будет реагировать на разное наложение рида на ген/гены. Выдача grep:

ENSG00000072274.8	20495
ENSG00000252174.1	4
__no_feature	478
__not_aligned	154
__alignment_not_unique	42

Из этого можно сделать выводы: 478 ридов не легли на границы генов, 42 чтения из-за -m union пересекаются сразу с несколькими генами, а 154 рида вообще не выровнились на референс. Помимо этого видно, что на ген ENSG00000072274.8 (TFR1 или ген рецептора трансферина человека), который учавствует в процессе эндоцитоза ионов железа из трансферрина в цитоплазму клетки, легло аж 20495 ридов. 4 же рида пересекаются с неэкспрессирующимся псевдогеном.