Задание выполнялось для пятой хромосомы

Исходно было получено 8208 чтений. С помощью программы Trimmomatic с конца каждого чтения были отрезаны нуклеотиды с качеством ниже 20 и оставлены только чтения длиной не меньше 50 нуклеотидов. Результат работы Trimmomatic:

Input Reads: 8208 Surviving: 8114 (98,85%) Dropped: 94 (1,15%)

Разница в качестве чтений до и после очистки отображена на Рис. 1. Видно, что различия есть не везде и в целом довольно незначительные.

5'
Рис.1 Сравнение качества: до обрезки - желтые "ящики" с черными "усами", после обрезки - наложенные поверх синие "ящики" с серыми "усами"

Картирование чтений

8084 (99.63%) чтений были картированы на 5 хромосому. Качество картирования можно считать высоким.

5'
Рис.2 Вывод hisat2

Аннотация полиморфизмов

Всего обнаружено 32 полиморфизма, из них 28 SNP, 4 - делеции и вставки. Интересно, что все полиморфизмы расположены на двух участках: примерно 35857000-35937000 и 74640000-74657000.

1 2 3
Координата 35 857 308 35 874 575 74 639 544
Тип полиморфизма Вставка Замена Делеция
Референс T C CTTGTATTGT
Чтения TC T CTTGT
Глубина покрытия 40 164 23
Качество чтений 177 225 73.5

База данных refseq в annovar делит snp по их расположению в последовательности.
4 оказались экзонными, 24 - интронными, один - в 3'-нетранслируемой области.

Из экзонных snp 3 попали в ген IL7R - рецептор интерлейкина-7 (замены T197C, G412A, C731T; в аминокислотах соответственно: I66T, V138I, T244I), а один - в ген CAPSL - кальцифозин-подобный белок (замена - G254A ; в аминокислотах соответственно: R85Q).

24 snp имеют rs номер по данным базы dbsnp. В базе данных 1000genomes нашлось 23 snp, средняя частота составила 0.42

Клиничиская аннотация

Согласно базе данных GWAS, три SNP ассоциированы с нарушениями обмена холестерина, а другие два - с диабетом I типа (в гене IL7R).
База данных ClinVar содержит информацию о трех SNP, все в гене IL7R. Два полиморфизма предположительно патогенны и могут быть связаны с тяжёлым комбинированным иммунодефицитом, один - неизвестно.

Использованные команды:

hisat2-build chr5.fasta chr5 Индексирование референса
fastqc chr5.fastq Проверка качества чтений
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr5.fastq chr5_trimmed.fastq TRAILING:20 MINLEN:50 Очистка чтений
fastqc chr5_trimmed.fastq Проверка качества после очистки чтений
hisat2 -x chr5 -U chr5_trimmed.fastq -S chr5_align.sam --no-softclip --no-spliced-alignment Выравнивание прочтений и референса
samtools view -b chr5_align.sam -o chr5_align.bam Перевод выравнивания в бинарный формат
samtools sort chr5_align.bam chr5_align_sorted Сортировка выравнивания по координате в референсе
samtools index chr5_align_sorted.bam Индексирование отсортированного файла
samtools flagstat chr5_align.sam Получение основной информации о картировании, в т.ч. числа откартированных чтений
samtools mpileup -uf chr5.fasta chr5_align_sorted.bam -o chr5_snp.bcf Создание файла с полиморфизмами
bcftools call -cv chr5_snp.bcf -o chr5_snp.vcf Перевод полученного файла в текстовый формат
vcftools --vcf chr5_snp.vcf --remove-indels --recode --out chr5_snp_noind Удаление инделей из vcf-файла
convert2annovar.pl -format vcf4 chr5_snp_noind.recode.vcf -outfile chr5_snp.avinput Получение входного файла для annovar
annotate_variation.pl -out chr5_refgene -build hg19 chr5_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных refGene
annotate_variation.pl -filter -out chr5_dbsnp -build hg19 -dbtype snp138 chr5_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных dbsnp
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out chr5_1000genomes chr5_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных 1000 genomes
annotate_variation.pl -regionanno -build hg19 -out chr5_gwas -dbtype gwasCatalog chr5_snp.avinput /nfs/srv/databases/annovar/humandb.old/ Аннотация по базе данных Gwas
annotate_variation.pl chr5_snp.avinput /nfs/srv/databases/annovar/humandb.old/ -filter -dbtype clinvar_20150629 -buildver hg19 -out chr5_clinvar Аннотация по базе данных Clinvar