Практикум 12. Анализ транскриптомов. Bedtools.

Задание выполнялось для chr11.1.fastq В директорию /nfs/srv/databases/ngs/kurkino/pr12 были скачаны: файл с хромосомой chr11.fasta и chr11.1.fastq-файл с одноконцевыми чтениями в формате fastq.
Таблица 1.
Команда Описание Вывод
fastqc chr11.1.fastq Контроль качества чтения chr11.fastq с помощью программы FastQC. Были созданы файл chr11.1.fastq и chr11.1_fastqс.zip
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar
SE -phred33 chr11.1.fastq outfile.fastq TRAILING:20 MINLEN:50
Программа Trimmomatic очищает чтения. В данном задании требовалось убрать с каждого конца чтения нуклеотиды с качеством ниже 20 и оставить чтения длиной не меньше 50 нуклеотидов. Был создан файл chr11.1_fastq.html.До работы программы было 39549, а осталось 39411 чтений, то есть ушло 0.35% чтений.
fastqc outfile.fastq Контроль качества чтений, прошедших триммирование. Архив с соответсвующими изображениями.

1.Контроль качества чтений до очистки

Oops

2.Контроль качества чтений после очистки

Oops

После обработки trimmomatic количество ридов уменьшилось (c 39549 до 39411, т.е. были удалены риды, имеющие длину от 30 до 50 нуклеотидов, осталось 99,65% от всех ридов-достатоно большой процент). Так как после работы программы все риды располагаются в зеленой области, можно сказать, что мы получили надежные прочтения. Но и изменений между 2 выдачами особо нет, что свидетельствует о хороших чтениях до обработки.

Картирование чтений.

Референсная последовательность была проиндексирована в pr11, я воспользовалась готовыми файлами indexed.1.ht2 - indexed.8.ht2.
Команда выравнивания ридов на референсную последовательность:

hisat2 --no-softclip -x chr22_indexed -U reads.fastq -S chr22.1_aligned.sam

Заметим, что программа hisat2 была запущена без параметра --no-spliced-alignment в отличие от практикума 11, т. к. предположительно здесь нужно было выровнять риды РНК на ДНК, т. е. нужно допускать выравнивания с разрывами на интроны (которые есть в ДНК референса и которых может не быть в ридах РНК). В практикуме 11 выравнивались риды ДНК на референс ДНК, поэтому выравнивания с разрывом на интроны исключались. Получился файл chr11.sam

Анализ выравнивания.

Перевод выравнивания чтений с референсом в бинарный формат был выполнен с помощью команды:

samtools view -b chr11.sam > chr11.bam

Сортировка чтений с референсом с помощью команды samttols sort и опциями -T и -O(Риды в файле были упорядочены в соответствии с координатами участков референса, на которые они выровнялись):

samtools sort chr11.bam -T sor.txt -o sor.bam

Файл с упорядоченными ридами был проиндексирован:

samtools index sor.bam

Подсчет чтений.

Для подсчета использовалась команада:

htseq-count -f bam chr11.bam -m union -s no -i gene_id /nfs/srv/databases/ngs/Human/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf > htseq-count

Опции:
1)-m режим обработки перекрытия ридов
2)-f формат bam или sam входного файла(по умолчанию sam)
3)-s цепь прямая (yes) или (reverse) обратная, (no) означает, что данные не специфичны к какой-то одной цепи.
4)-i указывает, какие строки GFF таблицы воспринимать как feature ID. По умолчанию gene_id, подходит под наш случай.

Анализ результатов

В выданном файле необходимо было найти все ненулевые строки с помощью команды:

grep -w -v 0 htseq.count

Результат:

ENSG00000109971.9 38946
ENSG00000200879.1 7
__no_feature 137
__ambiguous 43
__not_aligned 278

137 ридов не легли в границы генов, но выровнялись на референс, 43 пересеклись больше чем с одним геном, 278 вообще не выровнялись на референс.

ENSG00000109971.9-heat shock protein family A (Hsp70) member 8.

Этот ген кодирует одного из членов семейства белков теплового шока 70. Он действует как шаперон и связывается с зарождающимися полипептидами для облегчения правильного складывания. Он также действует как АТФаза в разборке везикул во время перехода компонентов мембраны через клетку.

ENSG00000200879.1-small nucleolar RNA.