Очистка и анализ чтений

В этом практикуме мне досталась 10 хромосома. Для начала, последовательность была проиндексирована с помощью команды "hisat2-build chr10.fasta chr10".
Затем провели анализ данных одноконцевых прочтений 10 хромосомы с помощью программы fastqc (все команды в таблице 1). После этого с помощью программы trimmomatic с конца каждого чтения были отрезаны нуклеотиды с качеством ниже 20 и оставлены только чтения длиной не меньше 50 нуклеотидов. Затем был проведен их повторный анализ. В результате, из 10666 последовательностей после использования trimmomatic осталось 10526. После использования этой программы улучшилось качество нуклеотидов с позициями 70 и выше, т.е. её использование оправдано.

Таблица 1. Команды и результаты
Команда	Результат
fastqc chr10.fastq	Zip-файл и файл html с анализом исходных чтений
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr10.fastq short2_chr10.fastq TRAILING:20 MINLEN:50	Чтения с обрезанными с концов нуклеотидами, у которых качество больше 20 и длина более 50 нуклеотидов в файле short2_chr10.fastq
fastqc short2_chr10.fastq	Zip-файл и файл html с анализом чтений после использования trimmomatic

Картинки из результатов fastqc с оценкой качества чтений нуклеотидов до и после использования trimmomatic:

Картинки из результатов fastqc c оценкой качества чтений целых последовательностей до и после использования trimmomatic:

Для картирования чтений была использованна команда "hisat2 --no-spliced-alignment --no-softclip -x /nfs/srv/databases/ngs/ivanmike/chr10 -U /nfs/srv/databases/ngs/ivanmike/short2_chr10.fastq -S chr10_1.sam". Из полученного файла был создан бинарный с помощью команды "samtools view -b chr10_1.sam -o chr10.bam". Затем была проведена сортировка выравнивания чтений с референсом по координате в референсе начала чтения (команда "samtools sort chr10.bam chr10_1"). После этого полученный .bam файл был проиндексирован командой "samtools index chr10_1.bam". С помощью команды samtools flagstat оказалось, что 98.78% ридов из 10526 были картированы и 128 не были. Можно говорить о высоком качестве чтения ридов.

Поиск snp и инделей

Для создания файла с полиморфизмами в формате .bcf была использована команда "samtools mpileup -uf chr10.fasta -g -o chr10_poly.bfc chr10_1.bam". Затем был создан файл со списком отличий между референсом и чтениями в формате .vcf (команда "bcftools call -cv chr10_poly.bfc -o chr10_poly.vcf"). С помощью этого файла была создана таблица 2 с 3 различными полиморфизмами.

Таблица 2. Полиморфизмы
	Координата	Тип	Референс	Чтение	Глубина покрытия	Качество чтений
1	5727202	Замена	C	T	5	43,0073
2	5804633	Вставка	TTC	TTCTC	119	217,468
3	5805087	Делеция	AACA	AA	37	217,468

Среднее значение качества чтений - 97,47, медиана - 69. Среднее значение глубины покрытия - 21,62, медиана - 8. Как видно около 50% чтений имеют качество меньше среднего. Медиана глубины покрытия показывает, что около 50% чтений были наложены на геном 8 раз.

С помощью программы IGV были получены изображения данных полиморфизмов. Изображение замены (красные полоски):

Изображение вставки (феолетовые I):

Изображение делеции (прочерки):

Аннотация SNP

Для начала был получен файл, скоторым может работать программа annovar с помощью команды "convert2annovar.pl -format vcf4 chr10_poly.vcf -o chr10_poly.avinput". Она показала 57 snp из которых 35 являются транзициями, 22 трансверсии и еще 9 инделей. Затем производилась аннотация по разным базам:

Аннотация файла по базе refgene: "annotate_variation.pl -out chr10_poly_ref -build hg19 -dbtype refGene chr10_poly.avinput /nfs/srv/databases/annovar/humandb.old/". Из полученного файла chr10_poly_ref.variant_function можно сделать вывод, что snp были разделены на exonic (10 snp), intronic (52 snp) и UTR3 (4 snp). SNP оказались в генах FAM208B, RTKN2 и CASP7. Из 10 exonic snp к мутациям, приведшим к изменению аминокислоты (nonsynonymous SNV) оказалось 7. Остальные 3 оказались синонимичными (synonymous SNV).
Аннотация файла по базе dbsnp: "annotate_variation.pl -filter -out chr10_poly_dbsnp -build hg19 -dbtype snp138 chr10_poly.avinput /nfs/srv/databases/annovar/humandb.old/". В файле chr10_poly_ref.hg19_snp138_dropped 57 из 66 полиморфизмов имеют rs, то есть они имеются в данном банке.
Аннотация файла по базе 1000 genomes: "annotate_variation.pl -filter -out chr10_poly_1000 -build hg19 -dbtype 1000g2014oct_all chr10_poly.avinput /nfs/srv/databases/annovar/humandb.old/". В этом банке есть информация по 54 полиморфизмам. Средняя частота - 61,24%.
Аннотация файла по базе Gwas: "annotate_variation.pl -regionanno -out chr10_poly_gwas -build hg19 -dbtype gwasCatalog chr10_poly.avinput /nfs/srv/databases/annovar/humandb.old/". В Gwas есть информация по 3 snp:
gwasCatalog Name=Osteosarcoma chr10 5804531 5804531 G A het 225.009 70
gwasCatalog Name=Rheumatoid arthritis chr10 63958112 63958112 T C het 225.009 75
gwasCatalog Name=Vitiligo chr10 115481018 115481018 C T het 225.009 91
Аннотация файла по базе Clinvar: "annotate_variation.pl -filter -out chr10_poly_clinvar -build hg19 -dbtype clinvar_20150629 chr10_poly.avinput /nfs/srv/databases/annovar/humandb.old/". Результат не дал ни одного snp в этой базе.

Можно сделать вывод, что клиническая аннотация snp недостаточная. Имеется информация только в базе Gwas о 3 snp, связанных с остеосаркомой, ревматоидным артритом и витилиго.

Назад
На главную