Практикум 12. Анализ транскриптомов.


1. Анализ качества чтений


Команды:

fastqc chr6.1.fastq Анализирует качество чтений программой fastqc
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr6.1.fastq chr6cleaned.1.fastq LEADING:28 Убирает из начала чтения нуклеотиды качества ниже 28
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr6cleaned.1.fastq chr6_cleaned.1.fastq MINLEN:50 Удаляет риды длиной меньше 50

ДоПосле

Количество ридов до чистки: 56575, после: 54997.



2. Картирование чтений


hisat2-build chr6.fasta chr6_indexed Индексирует референсную последовательность chr6.fasta и записывает результат в chr6_indexed
hisat2 --no-softclip -x chr6_indexed -U chr6_cleaned.1.fastq -S chr6_aligned.map Выравнивает риды на референс и записывает результат в chr6_aligned.map. Убрала параметр --no-spliced-alignment, потому что при секвенировании транскриптома разные части одной мРНК могут картироваться на экзоны, разделенные интронами.

Вывод hiset2 выглядит следующим образом:

52939 reads; of these:
52939 (100.00%) were unpaired; of these:
8949 (16.90%) aligned 0 times
43990 (83.10%) aligned exactly 1 time
0 (0.00%) aligned >1 times
83.10% overall alignment rate

Из 52939 ридов, содержащихся в файле chr6_cleaned.1.fastq 83.10%, то есть 43990 ридов были откартированы ровно 1 раз на референсную последовательность хромосомы; 16.90% (8949 рида) не откартировались совсем, а больше одного раза ни один рид не откартировался.



3. Анализ выравнивания


samtools view -bS chr6_aligned.map > chr6_aligned.bam Переводит выравнивания из формата .map в формат .bam, результат - в файле chr6_aligned.bam
samtools sort -T ./tmp/sorted.tmp -o chr6_aligned_sorted.bam -O bam chr6_aligned.bam Сортирует выравнивания по координате начала чтения в референсе. Результат - в файле chr6_aligned_sorted.bam
samtools index chr6_aligned_sorted.bam Индексирует отсортированный .bam файл


4. Подсчет чтений

htseq-count -f bam -s no -i gene_id -m intersection-nonempty chr6_aligned_sorted.bam gencode.v19.chr_patchl_scaff.annotation.gtf -o chr6_count> Опция -f указывает формат входного файла (bam или map), -s указывает, были ли входные данные точно только с одной цепи (у нас нет), -i указывает, что считать feature, в нашем случае - ген, -m указвает, что делать, если рид выравнивается или перекрывается более чем с одним feature. Либо учитывать все feature, либо брать пересечение всех feature (intersection-strict), либо брать пересечение только не пустых feature (intersection-nonempty).


5. Анализ результатов

Выдача скрипта count.py:
__no_feature 171 (171 рид не лег в границы генов. Возможно, это риды из 3’UTR.)
__ambiguous 0 (ни один рид не откартировался на несколько генов одновременно)
__too_low_aQual 0 (ни один рид не ниже заданного порога, потому что порог не задан)
__not_aligned 8949 (не откартировалсось 8949 ридов)
__alignment_not_unique 0 (ни один рид не откартировался неоднозначно)


43819 ридов откартировались на ген ENSG00000156508.13, который кодирует фактор элонгации трансляции (eukaryotic translation elongation factor 1 alpha 1).




© Belousova Evgenia, 2018