Практикум 11

Анализ качества

Таблица 1. Команды и их описание
Команда Описание
fastqc chr12.fastq
			

Выдает график оценки качества нуклеотидов и некоторую другую информацию о последовательности. Выполнялась дважды.

java -jar
/nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE
-phred33 chr12.fastq trimmed12.fastq SLIDINGWINDOW:10:28 MINLEN:50
			

Обрезает концы плохого качества (по 10 со средним качеством ниже 28, оставляя только прочтения >50bp).

Рис. 1. Качество до и после чистки.

Количество прочтений уменьшилось после чистки с 7157 до 6427. Отсеялись непопавшие под критерии риды (критерии в таблице команд).

Картирование чтений

Таблица 2. Команды
Команда Описание
hisat2-build chr12.fasta chr12
			

Индексирует последовательность.

/home/students/y06/anastaisha_w/hisat2-2.0.5/hisat2 \
chr12 trimmed12.fastq -S alg_chr12.sam --no-spliced-alignment --no-softclip
			

Строит выравнивание рида и референса.

samtools view -b -o alg_chr12.bam alg_chr12.sam 
			

Перевод выравнивания в бинарный формат.

samtools sort alg_chr12.bam sorted_chr12
			

Сортирует выравнивания по координатам начала.

samtools index sorted_chr12.bam
			

Индексирует п

samtools depth -r chr12:66260584-66260734 sorted_chr12.bam > depth_exon.tsv 
			

Выводит таблицу покрытий для каждого нуклеотида в указанном диапазоне.

Всего очищенный файл содержит 6427 рида, все непарные. 15 из них не выравнены, остальные ровно один раз.

Для анализа экзонов взят экзон гена AK128707 (неизвестный белок) chr12:66'260'584..66'260'734. Среднее покрытие 139.8, максимум покрытия примерно в середине, как и ожидалось.

Рис. 2. Количество ридов на нуклеотид. Нумерация от начала экзона.

Полиморфизмы

Таблица 3. Команды
Таблица 1. Команды и их описание
Команда Описание
samtools mpileup -uf chr12.fasta -o poly.bcf sorted_chr12.bam
			

Формирует бинарный файл с полиморфизмами. .

bcftools call -cv poly.bcf -o poly.vcf
			

Переводит файл с полиморфизмами в почти человекочитаемый формат.

convert2annovar.pl -format vcf4 poly.vcf > poly.avinput
			

Переводит файл с полиморфизмами vcf в формат annovar.

annotate_variation.pl -filter -out snp138_filtered -build hg19 -dbtype \
snp138 poly.avinput /nfs/srv/databases/annovar/humandb.old/
			

Разделяет полиморфизмы по наличию в dbsnp.

annotate_variation.pl -out refGene_filtered -build hg19 poly.avinput \
/nfs/srv/databases/annovar/humandb.old/
			

Аннотация refGene. Выделяет положение полиморфизма и вносимые изменения, если она в экзоне.

annotate_variation.pl -filter -out 1000g -build hg19 -dbtype 1000g2014oct_all \
poly.avinput /nfs/srv/databases/annovar/humandb.old/
			

Аннотация 1000 genomes. Показывает частоты аллелей.

annotate_variation.pl -regionanno -out gwas -build hg19 -dbtype gwasCatalog \
poly.avinput /nfs/srv/databases/annovar/humandb.old/
			

Аннотация GWAS. Выделяет ассоциированные признаки

annotate_variation.pl -filter -out clinvar -build hg19 -dbtype clinvar_20140211 \
poly.avinput /nfs/srv/databases/annovar/humandb.old/
			

Аннотация ClinVar. Должен выделять ассоциации с болезнями.

Таблица 4. Выявленные полиморфизмы
Координаты Тип Изменения Глубина Качество прочтений
9'822'387 Замена (трансверсия) C->G 28 174.009
66'260'925 Замена (трансверсия) C->G 4 30.0167
107'367'224 Замена (транзиция) T->C 74 221.999

Обнаружены только замены (всего 33, 7 не имеют rs, все приведенные уже в базе)

Вся полученная информация обо всех SNP

Почти у всех полиморфизмов хорошее покрытие. Интересно, что именно полиморфизмы с плохим покрытием отсутствуют в dbSNP и 1000genomes. Возможно, это артефакты секвенирования.

RefSeq в annovar делит SNP по положению (в скобках - сколько в данной последовательности): exonic(3), splicing(0), intronic(23), ncRNA(1), UTR5(0), UTR3(6), upstream, downstream, intergenic. Названия говорящие. Все SNP попали в 4 гена: CLEC2D(natural killer C-type receptor member, в этом гене все экзонные SNP), RPSAP52(Ribosomal Protein SA Pseudogene 52), HMGA2 (High modility group protein, DNA binding, нокаут ассоциирован с ожирением у мышей), TMEM263.

ClinVar не содержит информации по полиморфизмам. GWAS содержит информацию о 4 SNP: CLEC2D - диабет первого типа, HMGA2 - рост и структура мозга, TMEM263 - минерализация костей.


© Бушмакин Илья, 2017