Анализ транскриптомов
Программа | Что делает |
fastqc chr13.1.fastq | Анализ качества чтений |
hisat2 -x ../chr13 -U chr13.1.fastq -S chr13.1.sam --nosoftclip &> hisat2_output | Кладёт прочтения на референс (запрещаем подрезание концов, а вот разрывать прочтения, в отличие от предыдущего практикума, не запрещаем, так как помним, что имеем дело с транскриптомом) |
samtools view chr13.1.sam -b -o chr13.1.bam | Преобразование полученного на предыдущем шаге sam - файла в бинарный bam - файл |
samtols sort chr13.1.bam chr13.1.sorted | Сортировка по координате прочтения (относительно референса) |
samtools index chr13.1.sorted.bam | Индексирование bam - файла |
htseq-count -s no -f bam chr13.1.bam -i gene_id -o htseq-count.out.genes /P/y14/term3/block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf > htseq-count.out | Считает чтения, упавшие на разные участки референса |
1. Подготовка чтений
Программа fastqc показала, что чтения, в среднем, имеют неплохое качество. Всего чтений 12985, их длина колеблется от 34 до 51 (как видно из картинки ниже, подавляющее большинство чтений имеют длину около 51). Видимо, из-за меньшей длины по сравнению с прочтениями предыдущего практикума практически не наблюдается падения качества к концу. Было принято решение не использовать программу trimmomatic за ненадобностью.
2. Картирование чтений
При картировании был убран параметр --no-spliced-alignment, так как в транскриптоме после сплайсинга вполне могут оказаться рядом участки, разделённые в геноме интронами, так что нет никакого смысла запрещать программе разрывать прочтение, когда она выкладывает его на референс.
3. Анализ выравнивания
Программа hisat2 на этот раз выдала вот что:
12985 reads; of these: 12985 (100.00%) were unpaired; of these: 121 (0.93%) aligned 0 times 12864 (99.07%) aligned exactly 1 time 0 (0.00%) aligned >1 times 99.07% overall alignment rate
Из 12985 прочтений 121 не нашли себе места на референсной хромосоме, а все остальные легли ровно 1 раз.
4. Подсчёт чтений
В программе htseq-count были использованы опции -s, -f, -i. -s отвечает за цепь, из которой пришло прочтение, в данном случае цепь мы заранее не знаем. -f - это формат файла, подающегося на вход программе, по умолчанию - sam, в нашем случае - bam. -i - это 'feature identificator' (видимо, то, по чему мы распознаём, куда легло наше прочтение), в данном случае нам подходит gene_id. Опция -m не была использована, так как в документации к программе при анализе транскриптомов рекомендуется оставить её по умолчанию union (эта опция отвечает за то, как программа будет интерпретировать положение прочтения относительно референсных генов - какое положение считать перекрыванием, а какое - нет).
5. Анализ результатов
Уже отсортированная, с убранными повторяющимися строчками выдача программы htseq-count выглядит вот так:
XF:Z:ENSG00000133112.12 XF:Z:ENSG00000253051.1 XF:Z:__ambiguous[ENSG00000133112.12+ENSG00000199477.1] XF:Z:__ambiguous[ENSG00000273149.1+ENSG00000133112.12] XF:Z:__no_feature XF:Z:__not_aligned
Таким образом, нашлось всего 4 гена, в которые легли наши чтения.
Найдём упомянутые гены в EMBL-EBI
gene_id Координаты(chr13) Описание из базы данных ENSG00000133112 45333471..45341370 Translationally-controlled tumor protein, TPT1, involved in calcium binding and microtubule stabilization ENSG00000199477 45337480..45337609 small nucleolar RNA, H/ACA box 31 ENSG00000253051 45336314..45336447 small nucleolar RNA, H/ACA box 31B ENSG00000273149 45340039..45341183 novel transcript, antisense to TPT1
© Быкова Даша, 2018