Команда | Функция |
---|---|
fastqc chr2.fastq | Выдает информацию о ридах, находящихся в файле chr2.fastq, в графическом виде; в частности график с "ящиками с усами", позволяющий дать оценку качеству нуклеотидов в ридах |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr2.fastq chr2edited.fastq TRAILING:20 MINLEN:50 | Отрезает с конца каждого рида в файле chr2.fastq нуклеотиды с качеством ниже 20 и оставляет риды длиной не менее 50 нуклеотидов; выходные данные записывает в chr2edited.fastq |
FastQC: "Per base quality" до чистки
Число ридов: 10410
FastQC: "Per base quality" после чистки
Число ридов: 10191
Как видно из графиков, значительному изменению после чистки подверглись средние значения качества нуклеотидов, находящихся ближе к концу ридов, а точнее они улучшились за счет того, что укорачивались концы тех ридов, у которых конечные нуклеотиды были низкого качества. Также очистка чтений включала в себя исключение ридов короче 50 нуклеотидов, таковых оказалось 219 штук; это также улучшило качество нуклеотидов.
Команда | Функция |
---|---|
Картирование чтений | |
hisat2-build chr2.fasta hisat2-build | Индексирует последовательность в файле chr2.fasta; 8 выходных файлов - hisat2-build.х.ht2, где х - от 1 до 8. |
hisat2 --no-spliced-alignment --no-softclip hisat2-build ../chr2edited.fastq -S hisat2-build.sam | Строит выравнивание (выходной файл - hisat2-build.sam) ридов, прошедших очистку (chr2edited.fastq), и индексированной последовательности второй хромосомы (=референсная последовательность); --no-softclip запрещает подрезание чтений, --no-spliced-alignment обеспечивает картирование без разрывов. |
Анализ выравнивания | |
samtools view hisat2-build.sam -b -o hisat2-build.bam | Переводит выравнивания из формата .sam в бинарный формат .bam; -b указывает на формат .bam выходного файла (hisat2-build.bam), -o - на сам выходной файл. |
samtools sort hisat2-build.bam hisat2-buildsorted | Сортирует выравнивания чтений с референсной последовательностью; входной файл - hisat2-build.bam, выходной - hisat2-buildsorted.bam. |
samtools index hisat2-buildsorted.bam | Индексирует выравнивания в формате .bam; входной файл - hisat2-buildsorted.bam; выходной - hisat2-buildsorted.bam.bai. |
Вывод hisat2:
10191 reads; of these: 10191 (100.00%) were unpaired; of these: 47 (0.46%) aligned 0 times 10140 (99.50%) aligned exactly 1 time 4 (0.04%) aligned >1 times 99.54% overall alignment rate |
Из него видно, что всего из 10191 чтений было откартировано 10140, причем 4 из них были выровнены более одного раза. 47 ридов не было откартировано.
Команда | Функция |
---|---|
Поиск SNP и инделей | |
samtools mpileup ../hisat2-build/hisat2-buildsorted.bam -uf ../chr2.fasta -o snp.bcf | Создает файл snp.bcf, в котором в бинарном формате описаны различия между референсной последовательностью и ридами в выравниваниях из файла hisat2-buildsorted.bam; -uf - создание несжатого файла .vcf, входной в fasta формате. |
bcftools call -cv snp.bcf -o snp.vcf | Создает файл snp.vcf, в котором описаны различия между референсной последовательностью и ридами в выравниваниях; формат не бинарный. |
Аннотация SNP | |
grep -v "INDEL" snp.vcf > snponly.vcf | Создает файл snponly.vcf, аналогичный snp.vcf, но без инделей. |
convert2annovar.pl -format vcf -outfile snponly.txt snponly.vcf | Конвертирует файл в формате .vcf (snponly.vcf) в формат, усваиваемый пограммой annotate_variation.pl (здесь: .txt). |
annotate_variation.pl -out refgene -build hg19 ../snp/snponly.txt ../../../annovar/humandb/ | Аннотирует полиморфизмы по базе данных refgene, где -out указывает на выходной файл, -build - на сборку, ../snp/snponly.txt входной файл, ../../../annovar/humandb/ - путь к базе данных. |
annotate_variation.pl -filter -out rs -build hg19 -dbtype snp138 ../snp/snponly.txt ../../../annovar/humandb.old/ | Аннотирует полиморфизмы по базе данных dbsnp |
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000g ../snp/snponly.txt ../../../annovar/humandb.old/ | Аннотирует полиморфизмы по базе данных 1000 genomes |
annotate_variation.pl -regionanno -build hg19 -out gwas -dbtype gwasCatalog ../snp/snponly.txt ../../../annovar/humandb.old/ | Аннотирует полиморфизмы по базе данных Gwas |
annotate_variation.pl ../snp/snponly.txt ../../../annovar/humandb.old/ -filter -dbtype clinvar_20150629 -buildver hg19 -out clinvar | Аннотирует полиморфизмы по базе данных Clinvar |
Было получено 72 snp и 7 инделей. В таблице ниже приведены один из инделей и 2 snp с одними из самых лучших значениий глубины прочтения и качества. В общем, таких, которые несут смысл, snр немного; их можно поделить на группы: несколько полиморфизмов с глубиной покрытия 70-130+ и с качеством 223-225, полиморфизмы с глубиной покрытия 10-30 и качеством 120-220 (их больше). Большую часть составляют snp с глубиной прочтения 1-2 и качеством <10 - скорее всего это ошибки. Также встречаются полиморфизмы с небольшой глубиной прочтений, но с сравнительно хорошим качеством.
координата | тип полиморфизма | найдено в референсе | найдено в ридах | глубина покрытия | качество чтения |
---|---|---|---|---|---|
55516323 | замена | T | G | 112 | 225.009 |
55523308 | индель | CCA | CAACA | 6 | 188.468 |
234204113 | замена | Т | С | 136 | 221.999 |
В зависимости от того, где был обнаружен полиморфизм, БД refgene делит их (полиморфизмы) на следующие категории: из нетранслируемых областей UTR3 (6 snp) и UTR5 (2), из интронов intronic (57), из экзонов, служащих матрицей для некодирующей РНК ncRNA_exonic (1), из экзонов exonic (6). Также snp делятся на het (30) и hom (42) в зависмости от того, гетерозиготен ли пациент по конкретному snp или нет. Snp попали в следующие гены: CCDC88A, ATG16L1, MLPH, MIR6811. Аннотироваными rs окалось 67 snp, 5 snp - нет. Частота snp варьриует от 0.07 до 0.9, однако полиморфизмов с такими крайними частотами мало, перобладают полиморфизмы с snp 0.3-0.4.
В таблицы ниже приведены snp и аминокислотные замены к которм они привели. В общем счете только 1 замена оказалась синонимичной (E→E).
позиция snp | замена нуклеотидов | замена аминокислот |
---|---|---|
234183368 | A→G | T→A |
238427194 | T→C | L→P |
238427251 | G→A | G→D |
238443226 | A→G | H→R |
238449007 | T→C | V→A |
238449107 | A→G | E→E |
Если говорить о клинической аннотации, то snp clinvar_20150629 на позиции 234183368 (A→G) характерен для людей с высокой предрасположенностью к воспалительным заболеваниям кишечника (Clinvar аннотировал только этот полиморфизм). В то же время, благодаря аннотации по GWAS, известно, что 2 полиморфизма (на позициях 234173503 и 234183368) ассоциированы с болезнью Крона, которое относится к воспалительным заолеваниям кишечника; однако оба snp находятся в гетерозиготном состоянии, поэтому нельзя точно говорить о фенотипическом проявлении этого варианта. Помимо вышеуказанных полиморфизмов еще 1 полиморфизм (238443226) ассоциирован с раком простаты, и еще один полиморфизм (55516323) скорее всего связан с особенностями роста (отмечен gwasCatalog-ом как "Height").
Сводная таблица© Агаева Зара, 2018