Главная
О себе
Список курсов
Сайт ФББ

Практикум 12. Анализ транскриптомов

Часть I: подготовка чтений

Для выполнения данного практикума использовались прочтения транскриптома с 8-ой хромосомы пациента. Вначале качество ридов было визулизировано программой FastQC. Затем с конца каждого чтения были удалены нуклеотиды с качеством ниже 20, оставлены только чтения длиной не меньше 50 нуклеотидов. Затем качество ридов было снова визуализировано

Таблица с командами (исполнялись в папке /nfs/srv/databases/ngs/anton.vlasov/pr12):

Команда Что делает
fastqc chr8.1.fastq Визуализирует качество ридов транскриптома 8-ой хромосомы.
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr8.1.fastq chr8_good.fastq TRAILING:20 MINLEN:50 Удаляет с конца каждого чтения нуклеотиды с качеством ниже 20, оставляет чтения длиной не меньше 50.
fastqc chr8_good.fastq Визуализирует качество улучшенных ридов транскриптома.

Per base quality до обработки.

Per base quality после обработки trimmomatic.

Можно заметить, что trimmomatic не сильно повлиял на per base quality, число последовательностей уменьшилось с 17763 до 17612. Однако идеальным качество чтений транскриптома назвать нельзя. FastQC нашел проблемы с числом дубликатов последовательностей, а также с per base sequence content.

Часть II: картирование чтений

Команда Что делает
В данной части все команды исполнялись аналогично практикуму 11.
hisat2-build chr8.fasta chr8 Индексирует файл с референсной последовательностью.
hisat2 --no-softclip -x chr8 -U chr8_good.fastq -S align.sam &> result.log Выравнивает риды с референсной последовательностью, сохраняя информацию о работе программы в файл result.log.
Параметр --no-spliced-alignment был удален, так как исследуется транскриптом, а в нём возможен различный сплайсинг.
samtools view align.sam -b -o align.bam Преобразует .sam файл в бинарный .bam файл.
samtools sort align.bam -T temp.txt -o align_sort.bam Сортирует по возрастанию выравнивание чтений с референсом по координате в референсе в начале чтения.
samtools index align_sort.bam Индексирует отсортированное выравнивание.

Из файла result.log можно узнать следующие данные о картировании. 17307 ридов были картированы на референс 1 раз, 301 рид не был картирован. 4 рида были картированы более одного раза.

Часть III: Подсчёт чтений

Чтобы разобраться с параметрами программы htseq-count использовалась следующая страница: bioweb.pasteur.fr.

Значения опций:

Чтобы проще разобраться в схеме работы различных режимов mode в статье прилагается следующее изображение:

Для запуска htseq-count с различными параметрами использовался следующий скрипт do.sh. В скрипте использовались следующие команды:

Команда Что делает
htseq-count -f bam align.bam -m -i gene_id -s /P/y14/term3/block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf Посчитывает, сколько раз на ген попали последовательности из ридов с различными параметрами.
| grep -w -v 0 > m_<mode>_s_<yes|no|reverse>_i_gene_id.count Получает из STDOUT набор строк в формате <число ридов>, а затем сохраняет только те, где число ридов больше 0. Название файла с результатом соответствует параметрам запуска.

По результатам вывода была составлена сводная таблица summary.xlsx.

Featureunion + yesunion + nounion + reversestrict + yesstrict + nostrict + reversenonempty + yesnonempty + nononempty + reverse
ENSG00000104738.12228128012602592281280
ENSG00000253729.3215816158152153881538621581615815
__no_feature173031209121217304165916621730312101212
__not_aligned301301301301301301301301301
__alignment_not_unique888888888
_ambiguous010000000

Больше всего ридов попало на гены в режиме работы intersection-nonempty без учета направления цепи. Меньше всего генов было насчитано в режиме работы intersection-strict только на прямой цепи. Если воспользоваться схемой, расположенной выше, и данными из таблицы, можно прийти к выводы, что часть ридов частично выходила за пределы генов или находилось на месте разрыва генов (так как intersection-nonempty их посчитал, а intersection-strict - нет). 1 рид мог частично попасть на место наложения 2 генов, поэтому был отнесен к ambiguous в режиме union и к определенному гену в других режимах.

Обзор генов: