Часть I. Подготовка чтений.
Команды
Команда | Функция |
fastqc chr22.fastq fastqc chr22good.fastq | Выдает информацию о качестве прочтений (о Quality Score сигналов) |
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr20.fastq chr22good.fastq TRAILING:20 MINLEN:50 | Выдает файл chr22good.fastq, где отрезаны
с концов прочтений нуклеотиды качеством < 20 и удалены чтения длиной < 50 |
Изображения 'Per base sequence quality' |
До чистки | После чистки |
| |
До чистки число чтений было 11427, после удаления всех нуклеотидов качеством ниже 20 и чтений длиной меньше 50 число чтений стало 11091. Из сравнения изображений видно, что теперь почти все
значения лежат в зелёной зоне графика, что означает, что среднее качество ридов возросло, также
длина усов заметно сократилась.
Часть II. Картирование чтений.
Команды
Команда | Функция |
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5 | Добавляет пакет программ в PATH (они становятся доступными для вызова через командную строку) |
hisat2-build chr22.fasta chr22 | Индексирует референсную последовательность |
hisat2 --no-spliced-alignment --no-softclip -x chr22 -U chr22good.fastq -S align.sam | Строит выравнивание референсной последовательности и прочтений и сохраняет результат в файл align.sam (опция '--no-spliced-alignment' запрещает разбивать чтения и выравнивать их отдельными участками, опция '--no-softclip' запрещает подрезать чтения с концов) |
samtools view align.sam -b -o align.bam | Переводит выравнивание в бинарный формат |
samtools sort align.bam -T file.txt -o sort_align.bam | Сортирует выравнивание чтений с референсом по координате в референсе начала чтения |
samtools index sort_align.bam | Индексирует отсортированный .bam файл |
samtools stats sort_align.bam > out.txt | Выдаёт файл со статистикой |
Из файла со статитикой видно, что 11061 чтений было откартировано на хромасому, 54 - некартировано.
Часть III. Анализ SNP.
Команды
Команда | Функция |
samtools mpileup -uf chr5.fasta sort_align.bam -o snp.bcf | Создает файл с полиморфизмами в формате .bcf |
bcftools call -cv snp.bcf -o snp.vcf | Создает файл со списком отличий между референсом и чтениями в формате .vcf |
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 /nfs/srv/databases/ngs/anshkarina/pr11/snp1.vcf > /nfs/srv/databases/ngs/anshkarina/pr11/snp.annovar | Создает файл, необходимый для работы annovar (индели были удалены вручную) |
perl /nfs/srv/databases/annovar/annotate_variation.pl -out res.ref -build hg19 snp.annov /nfs/srv/databases/annovar/humandb/ | Аннотирует полученные snp по базе данных refgene |
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out res.snp -build hg19 -dbtype snp138 snp.annov /nfs/srv/databases/annovar/humandb/ | Аннотирует полученные snp по базе данных dbsnp |
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_all -out res.gen -buildver hg19 snp.annov /nfs/srv/databases/annovar/humandb/ | Аннотирует полученные snp по базе данных 1000 genomes |
perl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -dbtype gwasCatalog -out res.gwas -build hg19 snp.annov /nfs/srv/databases/annovar/humandb/ | Аннотирует полученные snp по базе данных Gwas |
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out res.clin -dbtype clinvar_20150629 -buildver hg19 snp.annov /nfs/srv/databases/annovar/humandb/ | Аннотирует полученные snp по базе данных Clinvar |
Найденные SNP
Координата | Референсная последовательность | Чтения | Тип полиморфизма | Глубина покрытия | Качество чтений |
26336259 | CTG | CTGATG | Вставка нуклеотидов | 1 | 22.4955 |
26343593 | A | G | Замена нуклеотида | 47 | 225.009 |
28656299 | CTATAT | CTAT | Делеция нуклеотидов | 1 | 13.6619 |
Всего 225 SNP, из них 10 инделей |
Аннотация по RefGene
Зона | Описание | Число SNP |
intronic | SNP в интронах | 183 |
exonic | SNP в экзонах | 25 |
|
ncRNA | SNP в транскрибируемой РНК, не имеющей аннотированного кодирующего участка | 7 |
Аннотация по dbSNP
В файл res.snp.hg19_snp138_dropped были записанны аннотированные SNP. 175 SNP имеют rs, 40 - не имеют.
Аннотация по Clinvar
В Clinvar аннотировано 2 SNP, которые были перечислены в файле res.clin.hg19_clinvar_20150629_dropped. В файле res.clin.hg19_clinvar_20150629_filtered были перечислены 213 SNP без аннотации
Аннотация по 1000Genomes
С помощью базы 1000Genomes можно посчитать частоту встречаемости SNP. Максимальная частота составила 0.9998, а минимальная - 0.00319489.
Аннотация по GWAS
С помощью базы GWAS можно понять с чем из описанного в литературе, ассоциированы SNP. Но так как полученный файл пустой, можно сделать вывод, что данные SNP не дают известных фентипических изменений.