Практикум 11.

Ресеквенирование. Поиск полиморфизмов у человека.

Нахождение и описание полиморфизмов у пациента

Для выполнения этого практикума мне было выдан файл с 6 хромосомой.
Сначала была произведена индексация референсной последовательности: hisat2-build chr6.fasta
С помощью команды FastQC был проведен анализ качества одноконцевых чтений в формате fastq: fastqc chr6.fastq. Результат анализа можете посмотреть здесь.
Изначально было 10289 ридов (длина 33-100).
Результаты  анализа до использования Trimmomatic
Результаты анализа до использования Trimmomatic
Затем я сделала очистку чтений с помощью программы Trimmomatic. Командой java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr6.fastq trim_chr6.fastq TRAILING:20 MINLEN:50 я отрезала с конца каждого чтения нуклеотиды с качеством ниже 20 и оставила только чтения длиной не меньше 50 нуклеотидов, а затем повторила контроль качества. Оказалось, что чистка значительно улучшила качество последних позиций в риде. Качество стало выше 25, но и до очистки качество было выше 30, за исключением последней позиции в риде. Поэтому, хотя качество, конечно, и увеличилось, сложно говорить о том, насколько чистка была обоснованная. Результат здесь.
Осталось 10123 ридов, т.е. был удален 1,61% ридов.
Результаты  анализа после использования Trimmomatic
Результаты анализа после использования Trimmomatic
Для картирования чтений было необходимо построить выравнивание прочтений и референса в формате .sam. Для этого я использовала команду:
hisat2 --no-spliced-alignment --no-softclip -x /nfs/srv/databases/ngs/olga.shigal/ht2_chr6 -U /nfs/srv/databases/ngs/olga.shigal/trim_chr6.fastq -S chr6.sam,
Вывод команды:
10123 reads; of these:
10123 (100.00%) were unpaired; of these:
77 (0.76%) aligned 0 times
10046 (99.24%) aligned exactly 1 time
0 (0.00%) aligned >1 times
99.24% overall alignment rate
Потом создала бинарный файл с расширением .bam:
samtools view -b chr6.sam -o chr6.bam
Выравнивания с референсом я отсортировала по координате в референсе начала чтения (по умолчанию):
samtools sort chr6.bam outsort
Проиндексировала отсортированный .bam файл командой:
samtools index outsort.bam
samtools idxstats outsort.bam > sumread.txt
Оказалось, что 10046 ридов откартировалось (99,2%), и 77 - не откартировалось, причем ни один рид не откартировался больше одного раза. Таким образом, можно считать картирование качественным.
sumread
Результаты работы samtools idxstats

Поиск snp и инделей

Команда samtools mpileup -uf chr6.fasta -g -o polymor.bfc outsort.bam - создание файла с полиморфизмами.
Создание файла со списком отличий между референсом и чтениями
bcftools call -cv polymor.bfc -o difer.vcf
Таблица 1. Описание полиморфизмов из файла .vcf
Полиморфизм 1 2 3
Координата 106961119 107016838 138192607
Тип полиморфизма Замена Вставка Замена
Референс T CTTT G
Чтение C CTTTTT T
Глубина покрытия 6 36 29
Качество чтений 36.0297 217.468 28.0137
Среднее значение качества всех полиморфизмов получилось 117,6, медиана - 114. Для глубины покрытия среднее значение - 28, а медиана - 9, и именно медиана лучше отображает реальную ситуацию, т.к. среднее значение смещено из-за немногих полиморфизмов глубина которых около 80 или даже больше.

Аннотация SNP

Перед началом работы с программой annovar, я конвертировала файл .vcf:convert2annovar.pl -format vcf4 difer.vcf -outfile difer.avinput . Эта команда при выполнении сообщила следующее:"Всего 79 SNP, из них 50 транзиции и 29 трансверсии, и 6 инделей.
Далее производилась аннотация snp по разным базам.

Клиническая аннотация

Посмотрим на содержимое файла, полученного после аннотации по Gwas:
Stroke (Инсульт) chr6 106987370 106987370 A C hom 221.999
Systemic lupus erythematosus(Системная красная волчанка) chr6 138195723 138195723 C G het 65.0073
Rheumatoid arthritis (Ревматоидный артрит),Systemic lupus erythematosus chr6 138196066 138196066 T G het 225.009
Coronary heart disease (Ишемическая болезнь сердца) chr6 154414563 154414563 A G hom 221.999

Вывод

Возможно, аннотация дала недостаточную информацию о всех полиморфизмах пациента, но позволила узнать о связи 4 snp с заболеваниями.