Учебный сайт Якушева Александра


Анализ транскриптомов. Bedtools.

Картирование чтения транскриптома на референсный геном. Работа с 7 хромосомой, что и в предыдущем практикуме.

Таблица 1. Использованные команды.
fastqc chr7.1.fastq Проверка качества чтений
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr7.1.fastq chr7_trimmed.fastq TRAILING:20 MINLEN:50 Тримминг
fastqc chr7_trimmed.fastq Проверка качества после тримминга
hisat2 -x chr7 -U chr7_trimmed.fastq -S chr7_align.sam --no-softclip Выравнивание прочтений и референса
samtools view -b chr7_align.sam -o chr7_align.bam Перевод выравнивания в бинарный формат
samtools sort chr7_align.bam chr7_align_sorted Сортировка выравнивания по координате в референсе
samtools index chr7_align_sorted.bam Индексирование отсортированного файла
htseq-count -f bam chr7_align.bam -i gene_id -s no gencode.v19.chr_patch_hapl_scaff.annotation.gtf > counts.txt Подсчет чтений
grep -wv 0 counts.txt > counts_notzero.txt Создание файла с числом чтений только для генов, на которые чтения в принципе были картированы.

Оценка качества чтений и очистка мусора

Исходно было получено 15940 чтения. Качество чтений до очистки отображено на Рис. 1. С помощью Trimmomatic с конца каждого чтения были отрезаны нуклеотиды с качеством ниже 20, после чего оставлены только чтения длиной не меньше 50 нуклеотидов. После очистки осталось 15856 ридов. Качество чтений после очистки отображено на Рис. 2. В целом хочется сказать, что качество чтений по сравнению с предыдущим практикумом гораздо выше.

Per base quality graph
Рисунок 1. Качество чтений до тримминга
Per base quality graph
Рисунок 2. Качество чтений после тримминга

Картирование ридов

В результате выравнивания на последовательность хромосомы легли один раз 99.14% (15720) ридов. Больше одного раза ни один рид не лег. 99.14% картировавшихся ридов это хороший показатель.

Также при запуске программы hisat2 был убран параметр --no-spliced-alignment, так как РНК может сплайсироваться.

Подсчет чтений

Для подсчета чтений была испольована программа htseq-count, имеющая следующие параметры:
-f формат входного файла.
-s выбор цепи
-i GFF атрибут, который используется в качестве feature ID (по умолчанию gene_id, подходящий для Ensembl GTF файлов).
-m что делать с ридами, попадающими на несколько генов.

Результаты

Итоговый файл содержал следующие строчки. Это те места, куда картировались наши риды.

ENSG00000106034.13	6205
ENSG00000207090.1	4
ENSG00000212628.1	5
__no_feature	9309
__ambiguous	197
__not_aligned	136

Как можно видеть, большинство ридов(из осмысленных) картировалось на ген кадгерин-подобного белка ENSG00000106034.13. Остальные два гена это малая ядерная и рибосомальная РНК. Скорее всего это издержки пробоподготовки. Также стоит отметить что огромное количество ридов оказалось откартировано непонятно куда - feature у них нет.