Отчёт по практикуму 12

Анализ данных РНК-секвенирования

Здесь чтения РНК картируются на референс и подсчитывается, куда они попали.

Процесс работы

Основные этапы работы оформлены в виде сценариев для bash. Для приведём команды из них и отдельно список инициализированных переменных. Файл с переменными можно скачать, команды и объяснения приведены в таблице 1.

Таблица 1. Команды, опции и их смысл
КомандаСмысл
fastqc ${before}Запускаем fastqc (переменная называется before с расчётом на возможность тримминга).
hisat2 --no-softclip -x $idx -U $before -S $samfile 2> ${wdir}/map/out.txtКартируем чтения. Так как сплайсинг возможен (картируем РНК на геном), убираем --no-spliced-alignment. Вывод сохраняем.
samtools view -b $samfile -o $bamfileПолучаем файл .bam.
samtools sort -o $sortedbam -O bam -T ./'sorttemp' $bamfileСортируем файл .bam, предоставляя samtools шаблон пути для временных файлов (-T).
samtools index $sortedbamИндексируем сортированный файл .bam.
htseq-count -f bam -r pos -s no -i gene_id -m union $sortedbam $gtf > counting.o 2> counting.eПодсчитываем чтения. Опции: -f bam для формата файла, -r pos для величины, по которой он отсортирован, -s no, чтобы не учитывать цепочку, -i gene_id для определения, чем будем индексировать/нумеровать референс, -m union — стандартный способ подсчёта перекрываний. Вывод сохраняем в файлы.
htseq-count -f bam -r pos -s no -i gene_id -m intersection-strict $sortedbam $gtf > counting_alt.o 2> counting_alt.eАльтернативный подсчёт: считаем пересечение, только если чтение целиком легло на ген. (Дополнительное задание).
grep -vE '0$' counting.oОставляем только строки, не кончающиеся на 0, и узнвём, на какие гены ложатся чтения.
grep -vE '0$' counting_alt.oАналогично со вторым подсчётом.
grep ENSG00000167658.11 /nfs/srv/databases/ngs/Human/rnaseq_reads/*.gtf | lessУзнаём имя первого гена. (EEF2)
grep ENSG00000206775.1 /nfs/srv/databases/ngs/Human/rnaseq_reads/*.gtf | lessИ второго. (SNORD37, это snoRNA — малая ядрышковая РНК).

Первым шагом была проверка качества чтений (отчёт FastQC). Качество оказалось хорошим (см. рис. 1), только распределение нуклеотидов по частотам неестественное (объяснение — малая выборка генов, на которые ложатся риды; также при подборе случайных праймеров начало прочтения получается не вполне случайным: статья). Количество чтений равно 34936.

качество
Рисунок 1. Качество ридов

Смотрим вывод hisat2 и видим, что картировано 98,53 % чтений. Приведём также результаты работы grep для стандартного и альтернативного подсчёта. (См. нумерованный список ниже).

  1. ENSG00000167658.11      34124
    ENSG00000206775.1       6
    __no_feature    284
    __ambiguous     7
    __not_aligned   515
  2. ENSG00000167658.11      33858
    ENSG00000206775.1       2
    __no_feature    561
    __not_aligned   515

Число вовсе не картированных ридов неизменно (и фиксировано после вызова hisat2), а вот число чтений, лёгших на гены, ожидаемо понизилось при вызове более строгого подсчёта. И всё-таки гены остались теми же. Куда попали не лёгшие в анотированные регионы чтения, неизвестно. Скорее всего, на интроны нашего гена, поскольку, например, ген snoRNA по координатам попал между экзонами основного гена.

Попавшийся мне ген EEF2 кодирует фактор элонгации 2 эукариот и играет роль в трансляции. SNORD37 кодирует snoRNA типа C/D, участвующую в 2'-O–метилировании рРНК.

После выполнения задания 11 к 12-му подступиться было проще.