Очистка и анализ чтений

В этом практикуме мне досталась 10 хромосома. Для начала, последовательность была проиндексирована с помощью команды "hisat2-build chr10.fasta chr10".
Затем провели анализ данных одноконцевых прочтений 10 хромосомы с помощью программы fastqc (все команды в таблице 1). После этого с помощью программы trimmomatic с конца каждого чтения были отрезаны нуклеотиды с качеством ниже 20 и оставлены только чтения длиной не меньше 50 нуклеотидов. Затем был проведен их повторный анализ. В результате, из 10666 последовательностей после использования trimmomatic осталось 10526. После использования этой программы улучшилось качество нуклеотидов с позициями 70 и выше, т.е. её использование оправдано.

Таблица 1. Команды и результаты
Команда Результат
fastqc chr10.fastq Zip-файл и файл html с анализом исходных чтений
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr10.fastq short2_chr10.fastq TRAILING:20 MINLEN:50 Чтения с обрезанными с концов нуклеотидами, у которых качество больше 20 и длина более 50 нуклеотидов в файле short2_chr10.fastq
fastqc short2_chr10.fastq Zip-файл и файл html с анализом чтений после использования trimmomatic

Картинки из результатов fastqc с оценкой качества чтений нуклеотидов до и после использования trimmomatic:



Картинки из результатов fastqc c оценкой качества чтений целых последовательностей до и после использования trimmomatic:



Для картирования чтений была использованна команда "hisat2 --no-spliced-alignment --no-softclip -x /nfs/srv/databases/ngs/ivanmike/chr10 -U /nfs/srv/databases/ngs/ivanmike/short2_chr10.fastq -S chr10_1.sam". Из полученного файла был создан бинарный с помощью команды "samtools view -b chr10_1.sam -o chr10.bam". Затем была проведена сортировка выравнивания чтений с референсом по координате в референсе начала чтения (команда "samtools sort chr10.bam chr10_1"). После этого полученный .bam файл был проиндексирован командой "samtools index chr10_1.bam". С помощью команды samtools flagstat оказалось, что 98.78% ридов из 10526 были картированы и 128 не были. Можно говорить о высоком качестве чтения ридов.

Поиск snp и инделей

Для создания файла с полиморфизмами в формате .bcf была использована команда "samtools mpileup -uf chr10.fasta -g -o chr10_poly.bfc chr10_1.bam". Затем был создан файл со списком отличий между референсом и чтениями в формате .vcf (команда "bcftools call -cv chr10_poly.bfc -o chr10_poly.vcf"). С помощью этого файла была создана таблица 2 с 3 различными полиморфизмами.

Таблица 2. Полиморфизмы
Координата Тип Референс Чтение Глубина покрытия Качество чтений
1 5727202 Замена C T 5 43,0073
2 5804633 Вставка TTC TTCTC 119 217,468
3 5805087 Делеция AACA AA 37 217,468

Среднее значение качества чтений - 97,47, медиана - 69. Среднее значение глубины покрытия - 21,62, медиана - 8. Как видно около 50% чтений имеют качество меньше среднего. Медиана глубины покрытия показывает, что около 50% чтений были наложены на геном 8 раз.

С помощью программы IGV были получены изображения данных полиморфизмов. Изображение замены (красные полоски):

Изображение вставки (феолетовые I):

Изображение делеции (прочерки):

Аннотация SNP

Для начала был получен файл, скоторым может работать программа annovar с помощью команды "convert2annovar.pl -format vcf4 chr10_poly.vcf -o chr10_poly.avinput". Она показала 57 snp из которых 35 являются транзициями, 22 трансверсии и еще 9 инделей. Затем производилась аннотация по разным базам:

Можно сделать вывод, что клиническая аннотация snp недостаточная. Имеется информация только в базе Gwas о 3 snp, связанных с остеосаркомой, ревматоидным артритом и витилиго.

Назад
На главную