Прочтения сразу были достаточно хорошего качества (минимум 28 у самого "плохого" уса, точки
10%)
До чистки по числу bp, длины последовательностей были 39-51, что, по сути, не критично для ридов,
полученных секвенированием РНК
Для улучшения параметра Per tile sequence quality достаточно ограничения в длинах = 45
Тепловая карта Per tile sequence quality До и После ограничения по длинам ридов
Этот график показывает качество нуклеотидов каждого рида; все они характеризуются цветами
различных оттенков - теплого или холодного (холодные цвета показывают качество нуклеотида выше среднего,
теплые, соответственно - ниже)
Таким образом, если взглянуть на теплокарту до чистки ридов по их длине, то мы видим несколько остатков зеленоватого
цвета. После чистки с помощью Trimmomatic все риды окрашены в холодные цвета, а значит, в нашей выборке
остались чтения с нуклеотидами качеством выше среднего
Также, даже после чистки у нас остались "критические" значения некоторых полей - Per base sequence content, Sequence Duplication Levels и предупредительные отметки параметров Per sequence GC content, Sequence Length Distribution и Overrepresented sequences
Модуль Per base sequence content выдает ошибку, когда различие между основаниями пары более 20% в определенной позиции,
что особенно явно отмечается в начальных позициях (в нашем случае). Причиной может быть смещение, возникшее при выборе праймеров; большинство
библиотек, полученных путем РНК-секвенирования падает именно на этом модуле. Обычно это не исправляется какой-либо постобработкой;
тем не менее, подобная ошибка не вносит существенной погрешности в последующие измерения
Модуль Sequence Duplication Levels падает, если неуникальные последовательности составляют >50% от общего числа таковых в библиотеке
В нашем случае это могло возникнуть вследствие анализа небольшой РНК-библиотеки. Думаю, в данном случае этот параметр не является серьезной причиной
для того, что наши чтения плохие и не подлежат дальнейшему анализу (особенно с учетом того, что дупликации последовательностей могли возникнуть
в результате технических ошибок пцр, как артефакты)
Таким образом, будем считать наши риды подлежащими дальнейшему анализу
Задания 2-3. Картирование чтений. Анализ выравнивания
Строим выравнивание референса и ридов; при этом убираем флажок --no-spliced-alignment, тк
выравниваем риды, полученные путем секвенирования РНК на ДНК-последовательность (в которой исходно
есть интроны)
samchr8.2.sam
bam.bam
samtools view samchr8.2.sam -b >> bam.bam
Переводим выравнивание ридов с референсной последовательностью в бинарный формат
bam.bam
sortedbam.bam
samtools sort bam.bam sortedbam
Сортируем полученное выравнивание по координате начала чтения
sortedbam.bam
sortedbam.bam.bai
samtools index sortedbam.bam
Индексируем отсортированный файл с выравниванием
Строим выравнивание референса и ридов с помощью программы, указанной в таблице выше
На вход было подано 17 491 ридов, из которых 100% были неспаренными; 346 (1.98%) выровнено 0 раз 17 145 (98.02%) выровнено 1 раз 0 (0.00%) выровнено >1 раза
Задание 4. Подсчет чтений
Будем использовать программу htseq-count Интересующие нас опции программы: -f тип файла с выравниванием (формат .sam или .bam; .sam по умолчанию) -s данные из цепь-специфичного анализа -? -i атрибут gff, который будет использоваться как feature ID -m модуль для обработки перекрытия ридов -?
Результаты по подсчету:
no_feature 17143
ambiguous 0
too_low_aQual 0
not_aligned 346
alignment_not_unique 0
Предполагаю, что скрипт count.py должен подсчитывать количество чтений. Его выдача:
ENSG00000104738.12 1
ENSG00000253729.3 1
Так, по одному чтению упали на гены ENSG00000104738 (MCM4; minichromosome maintenance complex component 4) и
ENSG00000253729 (DNA-PKC; protein kinase, DNA-activated, catalytic subunit)