На главную На страницу третьего семестра
— — — — — — — —
Я работал с 22 хромосомой.
Список команд
Команда | Что делает? |
---|---|
cp chr22.1.fastq ../../ivan.chernykh/ | Копирует файл chr22.1.fastq в мою директорию |
fastqc chr22.1.fastq | Запускает обработку файла chr22.1.fastq программой FastQC |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr22.1.fastq chr22.1_trim.fastq TRAILING:20 MINLEN:50 | Запускает процедуру триммирования, оставляя только чтения длиной не меньше 50 нуклеотидов и отрезая у них с конца нуклеотиды с качеством ниже 20 |
fastqc chr22.1_trim.fastq | Применяет программу FastQC к файлу chr22.1_trim.fastq |
hisat2 -x chr22 -U chr22.1_trim.fastq --no-softclip -S chr22.1_align.sam | Картирование чтений на проиндексированную последовательность |
samtools view chr22.1_align.sam -b -o chr22.1_align.bam | Перевод выравниваний в бинарный файл .bam |
samtools sort chr22.1_align.bam chr22.1_align_sort | Сортировка выравниваний по координате в референсе |
samtools index chr22.1_align_sort.bam | Индексирование отсортированного файла |
htseq-count -i gene_id -s no -m union -f bam chr22.1_align_sort.bam /nfs/srv/databases/ngs/Human/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf -o chr22.1_htseq-count.sam | Подсчет чтений, попавших на разыные участки хромосомы. -i - нужен для задания индекса. -s - задание цепи (в данном случае анализируем обе цепи - значение "no") -f - формат входного файла -m - способ подсчета (union, intersection-strict - только если чтение легло на ген целиком, intersection-nonempty - если чтение пересеклось с геном) |
Анализ качества чтений
Результат FastQC без триммирования
Результат FastQC после триммирования
Как видно из картинок, триммирование было не нужно, так как качество чтений изначально было уже очень хорошим.
Картирование чтений
Из команды hisat2 был убран параметр --no-spliced-alignment, так как мы работаем с транскриптомом, из которого были вырезаны интроны, то есть оставшиеся экзоны будут картироваться на геном с разрывами.
Анализ выравнивания
Выдача программы:
23459 reads; of these: 23459 (100.00%) were unpaired; of these: 366 (1.56%) aligned 0 times 23093 (98.44%) aligned exactly 1 time 0 (0.00%) aligned >1 times 98.44% overall alignment rate
Подсчёт чтений и анализ результатов
Чтения распределились по трём типам:
Описание | Количество |
---|---|
Стык генов (__no_feature) | 1355 |
Ген ENSG00000185686.13 | 21738 |
Не принадлежит хромосоме (чтения, которые по каким-либо причинам не картируются на хромосому, __not_aligned) | 366 |
Большая часть чтений легла на ген ENSG00000185686.13, который является основным антигеном меланомы. В нормальных тканях не активен, за исключением семенников. Имеет множество вариантов альтернативного сплайсинга.