О себе | I семестр | II семестр | Сайт ФББ



Анализ транскриптомов

1. Анализ качества чтений

КомандаЧто делаетВходной файлВыходной файл
fastqc chr4.1.fastq Контроль качества чтенийchr4.1.fastqchr4.1_fastqc.zip
chr4.1_fastqc.html
Per base sequence quality

2-3. Картирование чтений и анализ выравнивания

КомандаЧто делаетВходной файлВыходной файл
hisat2-build chr4.fasta chr4Индексирует референсную последовательностьchr4.fasta chr4.1.ht2
chr4.2.ht2
chr4.3.ht2
chr4.4.ht2
chr4.7.ht2
chr4.8.ht2
hisat2 -x chr4 -U chr4.1.fastq -S t2_1.sam --no-softclip Построение выравнивания прочтений и референса (убрала параметр --no-spliced-alignment, так как в данном случае рассматривается зрелая РНК, в которой рядом могут находиться участки, которые изначально не были соседними. chr4.1.fastqpr12_t2_1.sam
samtools view pr12_t2_1.sam -b >> pr12_t2_2.bam Перевод выравнивания чтений с референсом в бинарный формат .bampr12_t2_1.sampr12_t2_2.bam
samtools sort pr12_t2_2.bam pr12_t2_3 Сортировка выравнивания чтений с референсом по координате начала чтения в референсеpr12_t2_2.bampr12_t2_3.bam
samtools index pr12_t2_3.bamИндексация отсортированного .bam файлаpr12_t2_3.bampr12_t2_3.bam.bai
samtools idxstats pr12_t2_3.bam > pr12_t2_4.txtКоличество откартированных чтенийpr12_t2_3.bampr12_t2_4.txt
Выдача программы hisat2:
2735 reads; of these:
  2735 (100.00%) were unpaired; of these:
    72 (2.63%) aligned 0 times
    2663 (97.37%) aligned exactly 1 time
    0 (0.00%) aligned >1 times
97.37% overall alignment rate

4-5. Подсчет чтений и анализ результатов

Программа htseq-count
Программа принимает один или более файлов выравниваний в формате .sam или .bam и файл особенностей в формате .gff. В результате для каждой feature (особенности) вдаёт количество ридов, откартированных на неё. Некоторые опции программы htseq-count:
  -f {sam,bam}, --format {sam,bam}
                        формат принимаемого файла: 'sam' или 'bam'
                        (default: sam)

  -s {yes,no,reverse}, --stranded {yes,no,reverse}
                        указывает, являются ли данные специфичными для одной определенной цепи  
			(default: yes).
                        'reverse' означает 'yes' с обратной интерпретацией цепей
                        
  -i IDATTR, --idattr IDATTR
                        GFF атрибут, используется как feature ID 
                        (default, suitable for Ensembl GTF files: gene_id)

  -m {union,intersection-strict,intersection-nonempty}, --mode {union,intersection-strict,intersection-nonempty}
                        опция для перекрывающихся чтений
			(default: union)
КомандаЧто делаетВходной файлВыходной файл
htseq-count -s no -f bam pr12_t2_2.bam -i gene_id /P/y14/term3/block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf > pr12_t4_htseq-count.out Выдаёт количество ридов, выровненных с разными участками референса: -s no входные данные необязательно были с одной цепи; -m intersection-nonempty пересечение только не пустых feature pr12_t2_2.bam pr12_t4_htseq-count.out
grep -wv 0 pr12_t4_htseq-count.out > pr12_t4_count_2.outВыбирает строки, не оканчивающиеся на 0 pr12_t4_htseq-count.outpr12_t4_count_2.out
Файл, сгенерированный с помощью последней команды:
ENSG00000071127.12	1884    WD repeat-containing protein, domain 1
ENSG00000223086.1	1       RNA, 5S ribosomal pseudogene 155
ENSG00000261490.1	2       novel transcript, overlapping WDR1 (clone RP11-448G15)
__no_feature	776
__not_aligned	72
Видно, что 776 ридов не легли в границы генов, а 72 не откартировались. При этом 1884 рид лег на ген ENSG00000071127 домена 1 белка WD repeat-containing protein, содержащего 9 WD повторов и участвующего в связывании актиновых филаментов. Ген имеет 18 альтернативных продуктов.





© Антоненкова Юлия, 2017