Практикум №12

На главную На страницу третьего семестра

— — — — — — — —

Я работал с 22 хромосомой.

Список команд

Команда Что делает?
cp chr22.1.fastq ../../ivan.chernykh/ Копирует файл chr22.1.fastq в мою директорию
fastqc chr22.1.fastq Запускает обработку файла chr22.1.fastq программой FastQC
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr22.1.fastq chr22.1_trim.fastq TRAILING:20 MINLEN:50 Запускает процедуру триммирования, оставляя только чтения длиной не меньше 50 нуклеотидов и отрезая у них с конца нуклеотиды с качеством ниже 20
fastqc chr22.1_trim.fastq Применяет программу FastQC к файлу chr22.1_trim.fastq
hisat2 -x chr22 -U chr22.1_trim.fastq --no-softclip -S chr22.1_align.sam Картирование чтений на проиндексированную последовательность
samtools view chr22.1_align.sam -b -o chr22.1_align.bam Перевод выравниваний в бинарный файл .bam
samtools sort chr22.1_align.bam chr22.1_align_sort Сортировка выравниваний по координате в референсе
samtools index chr22.1_align_sort.bam Индексирование отсортированного файла
htseq-count -i gene_id -s no -m union -f bam chr22.1_align_sort.bam /nfs/srv/databases/ngs/Human/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf -o chr22.1_htseq-count.sam Подсчет чтений, попавших на разыные участки хромосомы. -i - нужен для задания индекса. -s - задание цепи (в данном случае анализируем обе цепи - значение "no") -f - формат входного файла -m - способ подсчета (union, intersection-strict - только если чтение легло на ген целиком, intersection-nonempty - если чтение пересеклось с геном)

Анализ качества чтений


Результат FastQC без триммирования


Результат FastQC после триммирования

Как видно из картинок, триммирование было не нужно, так как качество чтений изначально было уже очень хорошим.

Картирование чтений

Из команды hisat2 был убран параметр --no-spliced-alignment, так как мы работаем с транскриптомом, из которого были вырезаны интроны, то есть оставшиеся экзоны будут картироваться на геном с разрывами.

Анализ выравнивания

Выдача программы:

23459 reads; of these:
  23459 (100.00%) were unpaired; of these:
    366 (1.56%) aligned 0 times
    23093 (98.44%) aligned exactly 1 time
    0 (0.00%) aligned >1 times
98.44% overall alignment rate

Подсчёт чтений и анализ результатов

Чтения распределились по трём типам:

Описание Количество
Стык генов (__no_feature) 1355
Ген ENSG00000185686.13 21738
Не принадлежит хромосоме (чтения, которые по каким-либо причинам не картируются на хромосому, __not_aligned) 366

Большая часть чтений легла на ген ENSG00000185686.13, который является основным антигеном меланомы. В нормальных тканях не активен, за исключением семенников. Имеет множество вариантов альтернативного сплайсинга.