Для практикума использовались прочтения 13-ой хромосомы. Сначала качество ридов было визуализированно с помощью программы FastQC, далее с конца каждого чтения были удалены нуклеотиды с качеством <20 и оставлены чтения не короче 50-ти нуклеотидов. Затем качество ридов было повторно визуализировано.
Команда |
Что делает |
fastqc chr13.1.fastq | Визуализирует качество ридов 13-ой хромосомы |
Было решено не использовать программу trimmomatic, так как чтения хорошего качества |
Команда |
Что делает |
hisat2-build chr13.fasta chr13.1 | Индексирует файл с референсной последовательностью |
hisat2 -x chr13 -U chr13.1.fastq --no-softclip > chr13.1.sam | Создание выравнивания референсной последовательности и прочтений с картированием без подрезания чтений и запретом на картирование с разрывом |
Параметр --no-spliced-alignment был удален, так как мы имеем дело с транскриптомом, а в возможны различные перегруппировки | |
samtools view chr13.1.sam -bo chr13.1.bam | Перевод в бинарный формат .bam |
samtools sort chr13.1.bam -T tmp_sorter.txt -o chr13.1_sorted.bam | Сортировка бинарного выравнивания по возрастанию |
samtools index chr13.1_sorted.bam | Индексирование отсортированного выравнивания |
Команда |
Что делает |
htseq-count -f bam -s no -i gene_id -m chr13.1_sorted.bam /P/y14/term3/block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf | grep -wv 0 >> newcount.txt | Пайплайн, который считает чтения попавшие на разные участки референса, а затем из STDOUT оставляет только строки с ненулевым числом ридов |
Параметр |
Что делает |
-f | Определяет формат файла выравнивания: .bam или .sam |
-s | Определяет направление цепи: прямое/обратно/нет направления |
-i | GFF атрибут, используемый в качестве feature ID |
-m | Определяет, как программа будет интерпретировать положение прочтения относительно референсных генов - какое положение считать перекрыванием, а какое - нет. Параметр не использован - оставлено значение по умолчанию |
Как видно из вывода программы, чтения попали на 2 гена. 132 не попали ни на какой ген. Возможно, это риды из 3’UTR. 2660 ридов откартировались на несколько генов одновременно
gene_id |
Число чтений, попавших в границы гена |
Описание гена |
ENSG00000133112.12 | 10039 | This gene encodes a protein that is a regulator of cellular growth and proliferation © |
ENSG00000253051.1 | 33 | Small nucleolar RNA MBI-161 is a non-coding RNA (ncRNA) molecule which functions in the biogenesis (modification) of other small nuclear RNAs (snRNAs) |
Учебные реалии, или список семестров;
© Daniel Igumnov, 2018