Анализ транскриптомов

Часть 1. Оценка качества чтений.

Для подготовки чтений были взяты файлы из заданной директории. Далее была
произведена оценка качества чтений, для чего была выполнена команда:

fastqc chr21.1.fastq

Очистка чтений производилась с помощью программы Trimmomatic. Она была запущена
с такими параметрами, чтобы были удалены чтения с длиной менее 50 нуклеотидов и
с концов каждого прочтения были удалены нуклеотиды с качеством ниже 20.

 java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr21.1.fastq chr21.1_trimm.fast TRAILING:20 MINLEN:50

Число чтений до и после чистки

Число чтений до чистки	Число чтений после чистки
11221	11158

Картинки из FastQC "Per base quality"

До чистки

После чистки

Хотя стоит отметить, что делать чистку было не обязательно и качество значительно не улучшилось.

Часть 2-3. Картирование и анализ чтений

Картирование чтений было произведено программой hisat2, экспортированной с помощью команды

export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5

Таблица с командами и их описанием

Команды	Описание
hisat2-build chr21.fasta chr21_proc	Производит индексирование референсной последовательности
hisat2 -x chr21_proc -U chr21_trimm.fastq --no-softclip>chr21.sam	Выравнивание прочтений и референса
samtools view -b chr21.sam -o chr21.bam	Перевод в бинарный формат
samtools sort chr21.bam -T text.txt -o chr21_sort.bam	Сортировка выравниваний по координате в референсе начала чтения
samtools index chr21_sort.bam	Индексирование отсортированного выравнивания
samtools idxstats chr21_sort.bam>res.txt	Запись числа откартированных чтений

Был убран параметр --no-spliced-alignment, поскольку мы работает с последовательностью РНК и может происходить сплайсинг
На хромосому было откартировано 10877 ридов. 281 ридов откартированно не было.

Часть 4. Подсчет чтений

Была использована программа htseq-count:

htseq-count -f bam -s no -m union -i gene_id chr21_sort.bam gencode.v19.chr_patch_hapl_scaff.annotation.gtf >> count_2.txt

Опции запуска:
-f формат bam или sam
-s цепь прямая(yes) или обратная(no)
-i атрибут gff
-m режим обработки перекрытия ридов
Результат работы программы:
no_feature 408
ambiguous 0
too_low_aQual 0
not_aligned 281
alignment_not_unique 0

Анализ результатов

Строки, в которых стоял не 0, были найдены с помощью grep
Результат:
ENSG00000156256.10 111
ENSG00000156261.8 10337
ENSG00000231125.2 21
Первый результат это ген USP16, кодирующий убиквитин карбоксил-терминальную гидролазу 16
Второй в выдаче ген C21orf112, кодирующий шаперонин, содержащий субъединицу TCP1 8
Последний результат выдачи это ген AF129075.5 (Clone-based (Vega) gene)(псевдоген)
Некоторые чтения (408) легли в неаннотированные участки генома

htseq-count -f bam -s no -m intersection-strict -i gene_id chr21_sort.bam gencode.v19.chr_patch_hapl_scaff.annotation.gtf >> count_3.txt

Результат запуска с опцией intersection-strict:
ENSG00000156256.10 110
ENSG00000156261.8 9878
ENSG00000231125.2 21
Можно увидеть, что теперь уменьшилось число ридов на каждый ген, кроме последнего