Главная | Семестры | Третий семестр |
В данном практикуме я работал с хромосомой 17 человека. Все команды выполнены в моей рабочей директории /nfs/srv/databases/ngs/ivanpodd .
Команда | Результат |
cp ../Human/chr17.fasta chr17.fasta | Копирование файла в рабочую директорию |
hisat2-build chr17.fasta index17 | Индексация референсной последовательности |
cp ../Human/reads/chr17.fastq chr17.fastq | Копирование файла в рабочую директорию |
fastqc chr17.fastq | Анализ качества чтений |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr17.fastq chr17trim1.fastq TRAILING:20 MINLEN:50 | Очистка чтений: отрезаем позиции с качеством меньше 20 и убираем последовательсти с длиной меньше 50 |
fastqc chr17trim1.fastq | Анализ качества чтений после триммирования |
hisat2 -x index17 -U chr17trim1.fastq -S chr17align.sam --no-spliced-alignment --no-softclip | Картирование чтений на референс |
samtools view -b chr17align.sam -o chr17align.bam | Конвертация выравненных чтений в бинартый файл |
samtools sort chr17align.bam chr17alignsorted | Сортировка выравнивания по координате начала чтения в референсе |
samtools index chr17alignsorted.bam | ИНдексация сортированного бинарного файла |
samtools mpileup -u -f chr17.fasta -o chr17alsort.bcf chr17alignsorted.bam | Создание файла с полиморфизмами |
bcftools call -cv -o chr17alsort.vcf chr17alsort.bcf | Создание файла с отличиями между референсом и чтениями |
vcftools --vcf chr17alsort.vcf --remove-indels --recode --out chr17alsortnoin | Создание отдельного файла без инделей |
convert2annovar.pl -format vcf4 chr17alsortnoin.recode.vcf -out chr17.avinput | Конвертация в формат, читаемый программой annovar |
annotate_variation.pl -filter -out chr17dbsnp -build hg19 -dbtype snp138 chr17.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация полиморфизмов (snp) по базе данных dbsnp |
annotate_variation.pl -out chr17refgene -build hg19 -dbtype refGene chr17.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация полиморфизмов по refgene |
annotate_variation.pl -filter -out chr171000 -buildver hg19 -dbtype 1000g2014oct_all chr17.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация полиморфизмов по 1000 genomes |
annotate_variation.pl -regionanno -out chr17gwas -build hg19 -dbtype gwasCatalog chr17.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация полиморфизмов по Gwas |
annotate_variation.pl -filter -out chr17clinvar -buildver hg19 -dbtype clinvar_20150629 chr17.avinput /nfs/srv/databases/annovar/humandb.old/ | Аннотация полиморфизмов по Clinvar |
Таблица 1.
Всего было 11046 ридов. После очистки чтений осталось 10868. Среднее качество прочтения для позиций до и после очистки приведены на Рисунке 1 и Рисунке 2 соответственно. После обрезки качество немного возросло, однако и до находилось в приемлимых рамках, кроме двух последних позиций. Плотность качества чтений до и после очистки на Рисунке 3 и Рисунке 4 соответственно. Левый конец графика стал немного короче, так как мы удалили 1,6% низкокачественнвх чтений. Тем не менее, осталось небольшое количество чтений, для которых среднее качество 19 и 20. Таким образом, точно остались чтения с позицииями, чье качество меньше 20.
Рисунок 1.
Рисунок 2.
Рисунок 3.
Рисунок 4.
После картирования 99,69% чтений выравнились на референс, из них 33,01% более одного раза. Похоже, что качество картирования хорошее, но треть чтений, картированных более 1 раза, настораживает. Возможно в 17 хромосоме много достаточно длиных повторов.
Тип полиморфизма | Координата | Референс | Чтение | Глубина покрытия | Качество чтения |
Замена | 44788310 | G | A | 74 | 211.999 |
Замена | 79534593 | A | G | 6 | 139.134 |
Делеция | 79562977 | AGTTGTT | AGTT | 11 | 188.468 |
Таблица 2. Несколько полиморфизмов.
Всего найдено 54 snp и 4 инделя. Среднее качество snp - 69.94, однако 28 позиций имеют качество чтений меньше 20. На Рисунке 5 приведено распределение качества прочтения. Среднее покрытие - 11, только 7 с покрытием выше 30. Исходя из vcf файла, у позиций с большим покрытием большее качество. Интересно, как считается качество в позиции для нескольких ридов. Полиморфизмы попали в следующие гены: NSF, NPLOC4, CD79B.
Рисунок 5.
Аннотация по refseq делит полиморфизмы на 3 категории: exonic (3 штуки), intronic (46 штук), UTR3 (5 штук). Далее - часть аннотации по refseq, из которой можно судить о нуклеотидных и аминокслотных заменах. После "с" указаны замещаемое основания, позиция, замещающее основание. После "р" указаны замещаемая аминокслота, позиция, замещающая аминокислота. Данные замены синонимичные.
line22 synonymous SNV CD79B:NM_001039933:exon3:c.T369C:p.C123C,CD79B:NM_000626:exon3:c.T366C:p.C122C, chr17 62007498 62007498 A G hom 221.999 . line49 synonymous SNV NPLOC4:NM_017921:exon3:c.C159T:p.T53T, chr17 79589242 79589242 G A hom 221.999 . line53 synonymous SNV NPLOC4:NM_017921:exon2:c.G36A:p.P12P, chr17 79596811 79596811 C T hom 221.999 .
RS есть у 48 snp (по БД snp138). Средняя частота, согласно 1000 genomes, - 0.388. Далее - выдача после аннотации по Gwas. Так, замены связаны с раком яичников, болезнью Паркинсона, ростом, цветом глаз.
Аннотация по
Clinvar не дает никаких результатов, так как файл dropped пустой.
gwasCatalog Name=Ovarian cancer in BRCA1 mutation carriers,Parkinson's disease chr17 44788310 44788310 G A hom 221.999 . gwasCatalog Name=Height chr17 62007498 62007498 A G hom 221.999 . gwasCatalog Name=Eye color traits chr17 79596811 79596811 C T hom 221.999 .