Очистка чтений

КомандаФункция
fastqc chr10.1.fastqВыдает информацию о качестве прочтений chr10.1.fastq
java -jar /usr/share/java/trimmomatic.jar SE
-phred33 chr10.1.fastq chr10_new.fastq TRAILING:20 MINLEN:50
Выдает файл chr10_new.fastq, где отрезаны с концов
прочтений нуклеотиды качеством менее 20
и удалены чтения длиной меньше 50
fastqc chr10_new.fastqВыдает информацию о качестве прочтений trim_chr10.fastq



Рис. 1 Качество прочтения ридов до очистки


Рис. 2 Качество прочтения после очистки

До очистки файл содержал 15462 прочтений
После очистки файл содержал 15313 прочтений
Очистка несильно улучшило качество чтений, но зато удалила корткие "мусорные" чтения с участками адаптеров, что облегчит дальнейшее картирование.

Картироваие чтений

КомандаФункция
hisat2-build chr10.fasta chr10Выдаёт индексированную референсную последовательность
в формате fasta
hisat2 -x chr10 -U chr10.fastq
--no-softclip > align.sam
Выравнивает прочтения
с референсной последовательностью
samtools view align.sam -b -o align.bamпереводит файл из формата sam в формат bam
samtools sort align.bam -T file.txt -o
alignsort.bam
Сортирует выравнивание чтений
samtools idxstats alignsort.bam > resut.txtзаписывает число закартированных чтений

В результате было откартировано 15108 чтений. 205 чтение не откартировалось. Из второй команды я убрал параметр --no-spliced-alignment, так как часть РНК уже потеряло интроны.

Работа с bedtools

КомандаФункция
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools bamtobed -i alignsort1.bam > chr10_1.bedСоздает файл в .bed формате
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -c -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b chr10.bed > chr10_c_rev.bedСоздается файл, где со списком генов идут их покрытия
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -a /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed -b chr10.bed -u > chr10_u_rev.bedСоздается файл, содержащий строки лишь с генами, имеющими ненулевое покрытие
/P/y14/term3/block4/SNP/bedtools2/bin/bedtools intersect -wa -wb -a chr10.bed -b /P/y14/term3/block4/SNP/rnaseq_reads/gencode.genes.bed > chr10_1_wa_wb.bedСоздается файл, где любые перекрывающиеся участки выводятся одной строкой, содержащей названия этих участков в файле chr10.bed и в разметке соответственно

Найденные гены

Был найден только один ген DDX21, который кодирует DExD-box хеликазу 21.
Координаты гена-70715884 - 70744829. Ген содержит 15 экзонов. Информация о покрытии представлена в таблице
Ещё не разрезанная мРНК доминирует в образце, её покрытие на порядок превосходит покрытие сплайсированных последовательностей и
составляет 15066.
Функция белка заключается в изменении вторичной структуре РНК. Участвуетв инициации трансляции, образовании сплайсосом и рибосом.
Кроме того, была найдена РНК неизвестного происхождения. Её покрытие- 167.


© Максим Григорьян, 2016