МГУ

Учебная страница
Жуковой Надежды

Студентки факультета биоинженерии
и биоинформатики МГУ им. Ломоносова

ФББ

ПРАКТИКУМ №14:
Введение в транскриптомный анализ

Задание №1:Подготовка референса

Референс был проиндексирован с помощью команды hisat2-build chr4.fna chr4 2> hisat_log.
На вход был подан файл с хромосомой chr4.fna, на выходе файлы: chr4.1.ht2 chr4.2.ht2
chr4.3.ht2 chr4.4.ht2 chr4.5.ht2 chr4.6.ht2 chr4.7.ht2 chr4.8.ht2.

Задание №2: Оценка качества чтений

a. Команда: fastqc SRR2015718_1.fastq.gz 2> fastqc_log
b. Получилось 33065729 чтений
c. Картинка из раздела Per base sequence quality:

1

d. Качество чтений хорошее, почти все боксплоты лежат в зеленой области.
e. Картинка из раздела Sequence Length Distribution:

1

f. Как видно из рисунка выше длина чтений составляет 101 bp

Задание №3: Картирование чтений на референс

a. Команда: hisat2 -p 22 -x chr4 -k 3 -U SRR2015718_1.fastq.gz > rna_reads.sam 2> hisat_log2.txt
Опции:
-p 22 - число ядер
-x chr4 - проиндексированный референс
-k 3 - число выравниваний, которое будет найдено, таких, что их score максимально возможный
b. 31838063 (96.29%) чтений не закартировалось на референс, 1208325 (3.65%) закартировалось 1 раз,
19341 (0.06%) закартировалось более одного раза. Малое количество закартрованных чтений
обусловлено тем, что референс - только 1 хромосома.
с. Sam файл был переведен в bam с помощью команды samtools sort -o rna_reads.bam rna_reads.sam
Bam файл был проиндексирован с помощью команды samtools index -@ 22 rna_reads.bam
d. Были отобраны чтения только 4й хромосомы:
samtools view -@ 22 -h rna_reads.bam NC_000004.12 > rna_chr4.sam
samtools view -@ 22 -bS rna_chr4.sam > rna_chr4.bam

Задание №4: Поиск экспрессирующихся генов

a. Файл содержит шапку с информацией об аннотации. Затем идет блок строк с аннотациями генов,
транскриптов, экзонов, CDS и других способов разметить хромосому, про каждый элемент разметки
содержится информация о названии последовательности, источнике, особенностях, начале и конце и тд.
c. Команда: htseq-count -f bam -s no -m union -t exon rna_chr4.bam gencode.chr4.gtf 1> htseq 2> htseq_log.txt
Опции:
-f bam - формат входного файла,
-s no - отсуствие информации о цепи,
-m union - режим объединения для ридов, относящихся к нескольким генам,
-t exon - выбираются только экзоны.
d. Команда: wc -l htseq | head -n $lines-5 htseq | awk '{s+=$2}END{print s}', их оказалось 933241.
Количество чтений, не попавших в гены (команда tail htseq) - 246712.