1. Анализ качества чтений

*для первой биологической реплики

-ccылка на FastQC проект
- скрин BoxPlot диаграммы, отражающей качество ридов:



Вывод: качество нуклеотидов в каждом риде превышает 20, поэтому применять к этому fastq-файлу Trimmomatic нет необходимости.

2. Картирование чтений

-таблица с командами:

КомандаФункция
/home/students/y06/anastaisha_w/hisa t2-2.0.5/hisat2 --no-softclip -x chr5 -U chr5.1.fastq -S chr5_al.sam --un --al Строит выравнивание референсной последовательности и прочтений
samtools view chr5_al.sam -b -o chr5_al.bamПереводит выравнивание в бинарный формат
samtools sort chr5_al.bam -T file.txt -o chr5_al_sort.bamСортирует выравнивание чтений с референсом по координате в референсе начала чтения
samtools index chr5_al_sort.bamИндексирует отсортированный .bam файл

- Из команды /hisat2 была убрана опция '--no-spliced-alignment', так как в случае транскриптов, прошедших процессинг, некоторые участки (интроны) изначальной последовательности ДНК уже вырезаны, поэтому при картировании нужно разрешить программе выравнивать фрагменты транскриптов по отдельности, иначе получится ситуация, когда на экзоны ляжет много чтений, а на интроны совсем ничего.

3. Анализ выравнивания

-всего выравнено 23652 рида, из них один раз- 17070, более одного раза- 6582. Не легли на геном 504

4. Подсчет чтений

-таблица с командами для htseq-count:

КомандаОпция
-f формат для входного файла, может быть или .sam, или .bam (в нашем случае bam)
-i Определение из файла GFF, которое будет использоватся для описания. По умолчанию- это ID гена (для RNA-seq подходит).
-s -'yes'- чтения должны ложиться на ту же цепочку по направлению, что и при картировании
-'no'- чтение считается переврывающимся с геномом, даже, если оно расположено на противоположной цепи (было использовано для обработки)
-'reverse'- все меняется на противоположную цепочку
-m Для обработки чтений, которые покрывают более одного гена, экзона и т.п (feature):
'union'- обьединение, попадает все, что покрывает данное определение
'intersection_strict'- попадают только чтения, которые полностью легли на данное определение (использовалось это)
'intersection_nonempty'- непустое пересечение с данным опреледением

*htseq-count -f bam chr5_al_sort.bam -i gene_id -s no ../../../../../../P/y14/term3/
block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf- готовый запрос


Результат программы:
no_feature 796
__ambiguous 0
__too_low_aQual 0
__not_aligned 504
__alignment_not_unique 22

-504 чтение не легло в границу гена. Они могли не полностью попасть в границу гена, или вообще попасть на гэп в гене.
- 22 чтения не являются уникальными (т.е. не определено, куда точно они легли)
-программа выдала, что данный транскрипт относится к гену с ID ENSG00000249353.2 (encembl). Это ген, а точнее псевдоген, который должен был кодировать белок nucleophosmin 1. Также этот транскрипт принадлежит гену с ID ENSG00000181163, который кодирует белок nucleophosmin 1. * Больше информации в этом файле


© Nenartovich Marina 2017