Анализ полиморфизмов

Ресеквенирование. Поиск полиморфизмов у человека

Часть 1. Подготовка чтений

Для практикума использовались прочтения 13-ой хромосомы. Сначала качество ридов было визуализированно с помощью программы FastQC, далее с конца каждого чтения были удалены нуклеотиды с качеством <20 и оставлены чтения не короче 50-ти нуклеотидов. Затем качество ридов было повторно визуализировано.

Таблица 1. Исполненные команды

Команда

Что делает

fastqc chr13.1.fastq Визуализирует качество ридов 13-ой хромосомы
Было решено не использовать программу trimmomatic, так как чтения хорошего качества

Рисунок 1. Per base quality

Часть 2. Картирование чтений

Таблица 2. Исполненные команды

Команда

Что делает

hisat2-build chr13.fasta chr13.1 Индексирует файл с референсной последовательностью
hisat2 -x chr13 -U chr13.1.fastq --no-softclip > chr13.1.sam Создание выравнивания референсной последовательности и прочтений с картированием без подрезания чтений и запретом на картирование с разрывом
Параметр --no-spliced-alignment был удален, так как мы имеем дело с транскриптомом, а в возможны различные перегруппировки
samtools view chr13.1.sam -bo chr13.1.bam Перевод в бинарный формат .bam
samtools sort chr13.1.bam -T tmp_sorter.txt -o chr13.1_sorted.bam Сортировка бинарного выравнивания по возрастанию
samtools index chr13.1_sorted.bam Индексирование отсортированного выравнивания

Рисунок 2. Вывод программы hisat2 в терминал

Часть 3. Подсчёт чтений

Таблица 3. Исполненные команды

Команда

Что делает

htseq-count -f bam -s no -i gene_id -m chr13.1_sorted.bam /P/y14/term3/block4/SNP/rnaseq_reads/gencode.v19.chr_patch_hapl_scaff.annotation.gtf | grep -wv 0 >> newcount.txt Пайплайн, который считает чтения попавшие на разные участки референса, а затем из STDOUT оставляет только строки с ненулевым числом ридов

Таблица 4. Параметры htseq-count

Параметр

Что делает

-f Определяет формат файла выравнивания: .bam или .sam
-s Определяет направление цепи: прямое/обратно/нет направления
-i GFF атрибут, используемый в качестве feature ID
-m Определяет, как программа будет интерпретировать положение прочтения относительно референсных генов - какое положение считать перекрыванием, а какое - нет. Параметр не использован - оставлено значение по умолчанию

Рисунок 3. Вывод работы конвейера

Как видно из вывода программы, чтения попали на 2 гена. 132 не попали ни на какой ген. Возможно, это риды из 3’UTR. 2660 ридов откартировались на несколько генов одновременно

Таблица 5. Определённы с помощью htseq-count гены

gene_id

Число чтений, попавших в границы гена

Описание гена

ENSG00000133112.12 10039 This gene encodes a protein that is a regulator of cellular growth and proliferation ©
ENSG00000253051.1 33 Small nucleolar RNA MBI-161 is a non-coding RNA (ncRNA) molecule which functions in the biogenesis (modification) of other small nuclear RNAs (snRNAs)

Полезные ссылки:

Главная страница;

Профайл;

Учебные реалии, или список семестров;

Официальный сайт ФББ МГУ.


© Daniel Igumnov, 2018