Навигация по сайту
На Главную 1 семестр 2 семестр 3 семестр Здесь будут другие семестры Обо мне Официальный сайт ФББ МГУ
Сначала мы проанализировали качество ридов при помощи FastQC при помощи команды "fastqc chr3.fastq". Далее чтения были обработаны при помощи Trimmomatic,команды "java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr3.fastq chr3m1.fastq TRAILING:20" и "java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr3m1.fastq chr3m2.fastq MINLEN:50": удалить с конца ридов нуклеотиды с качеством ниже 20 и удалить чтения длиной меньше 50 нуклеотидов соответственно. ПОлученный файл снова был обработан FastQC.
FastQC "Per base quality" до и после чистки. Число чтений до и после чистки 20932 и 20570 соответственно. Осеялись конечные участки ридов с качеством нулеотидов меньше 20 (для некоторых это весь рид) и чтения, длина которых после обрезания концов оказалась меньше 50.
Команда | Что делает |
fastqc chr3.fastq | анализ качества ридов |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr3.fastq chr3m1.fastq TRAILING:20 | отрезать с конца ридов буквы с качеством ниже 20 |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr3m1.fastq chr3m2.fastq MINLEN:50 | удалить чтения короче 50 букв |
Референсная последовательность была проиндексирована при помощи команды "hisat2-build chr3.fasta chr3". Далее риды были выровненны по референсному геному командой "hisat2 --no-spliced-alignment --no-softclip -x chr3 -U chr3mod2.fastq -S chr3m4.sam". После комндами "samtools view -b -o chr3m4.bam chr3m4.sam", "samtools sort -o chr3m4n1.bam -O bam -T t chr3m4.bam", "samtools index chr3m4n1.bam" выравнивание было преведено в бинарный формат, отсортировано по координате начала чтения и проиндексировано. Согласно выдаче Hisat2, 20481 чтений откартировано на геном ровно один раз, 10 откартировано больше одного раза, а 79 не откартировано ни разу (также они были выражены в процентах).
Команда | Что делает |
hisat2-build chr3.fasta chr3 | Индексирование референсной последовательности |
hisat2 --no-spliced-alignment --no-softclip -x chr3 -U chr3mod2.fastq -S chr3m4.sam | Выравнивание ридов по референсной последовательности |
samtools view -b -o chr3m4.bam chr3m4.sam | Перевод в .bam |
samtools sort -o chr3m4n1.bam -O bam -T t chr3m4.bam | Сортировка по координатам |
samtools index chr3m4n1.bam | Индексирование полученного .bam файла |
Был создан файл с полиморфизмами в формате .bcf (команда samtools mpileup -uf chr3.fasta chr3m4n1.bam --output chr3m4p.bcf), далее командой bcftools call -cv -O v -o chr3m4l.vcf chr3m4p.bcf на основе .bvf-файла был создан .vcf-файл - список отличий чтений от референса
Три полиморфизма из спискаКоордината | Тип полиморфизма | Референс | Чтения | Покрытие | Качество чтений |
41607450 | Замена | C | T | 52 | 60 |
41607701 | Замена | C | G | 36 | 60 |
41841811 | Вставка | TATTA | TATTAATTA | 27 | 60 |
Команда | Что делает |
samtools mpileup -uf chr3.fasta chr3m4n1.bam --output chr3m4p.bcf | создает файл .bcf формата со списком полиморфизмов |
bcftools call -cv -O v -o chr3m4l.vcf chr3m4p.bcf | создает список отличий чтений от референса |
Команда | Что делает |
convert2annovar.pl -format vcf4 chr3m4l.vcf -outfile chr3m1.avinput | Конвертирование .vcf в формат, пригодный для annovar |
annotate_variation.pl -out refgene1 -build hg19 chr3m1.avinput /nfs/srv/databases/annovar/humandb.old | аннотация в refgene |
annotate_variation.pl -filter -out rssnps -build hg19 -dbtype snp138 chr3m1.avinput /nfs/srv/databases/annovar/humandb.old | аннотация в dbsnp |
/nfs/srv/databases/ngs/egor_su$ annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000g chr3m1.avinput /nfs/srv/databases/annovar/humandb.old | аннотация в 1000 genomes |
annotate_variation.pl -regionanno -build hg19 -out gwas -dbtype gwasCatalog chr3m1.avinput /nfs/srv/databases/annovar/humandb.old | аннотация в GWAS |
annotate_variation.pl chr3m1.avinput /nfs/srv/databases/annovar/humandb.old/ -filter -dbtype clinvar_20150629 -buildver hg19 -out clinvar | аннотация в Clinvar |
Всего было найденно 218 SNP'ов и 12 инделей. Большенство полиморфизмов имеют покрытие 1-2 и низкое качество, но также есть полиморфизмы с хорошим(30+) покрытием и высоким качеством.
База данных refseq в annovar делит snp на группы по позиции в геноме. В экзонах - 13, в интронах -199, в UTR3 - 4 и 2 в UTR5. В файле refgene1.exonic_variant_function все SNP, расположенные в экзонах разделены по вызываемым заменам: 4 синонимичных и 9 несинонимичных.
Все SNP попали на 4 гена - FNDC3B, CADM2, GNL3, ULK4
178 SNP имеют rs.
Аннотация в 1000 genomes дает информацию о встречаемости данной замены. В моем случае частота разнится от 0.00119808 до 0.996805.
SNP, которые связаны с заболеваниями собраны в GWAS. При аннотации в GWAS в каталог попало 4 SNP.
Аннотация в Clinvar ничего не дала
Exel-таблица с SNP