Ресеквенирование. Поиск полиморфизмов у человека.

Часть I: Подготовка чтений.

Для начала в директории nfs/srv/databases/ngs/ была создана папка s.kozyulina, куда были скопированы файлы chr17.fasta (файл с хромосомой) и chr17.fastq (файл с ридами).

Анализ качества и очистка чтений.
Использованные команды:
№ команды Команда Результат выполнения команды
1 fastqc chr17.fastq анализ чтений. Выдача данной команды - файл chr17_fastqc.html
2 java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr17.fastq chr17clean.fastq TRAILING:20 MINLEN:50 команда для очистки чтений: отрезает с конца каждого чтения нуклеотиды с качеством ниже 20 и оставляет только чтения длины не менее 50 нуклеоидов.
3 fastqc chr17clean.fastq анализ очищенного прочтения. Полученный файл - chr17clean_fastqc.html

Сравнение исходных и очищенных чтений
Характеристики Исходные чтения Чтения после чистки
График "Per base quality" из программы FastQC
Число чтений 11046 10868
Что изменилось? В результате чистки программой trimmomatic было удалено 178 чтений длиной меньше 50 нуклеотидов. В итоге остались только чтения длиной 50-100 нуклеотидов, в то время как длина исходных чтений варьировалась в промежутке 31-100 нуклеотидов.

Комментарии по чтению графиков "Per base quality":

Часть II: Картирование чтений.

Картирование чтений.

На данном этапе необходимо сначала проиндексировать референсную последовательность, а затем построить выравнивание прочтений и референса в формате .sam (ход действий представлен ниже).

Использованные команды:
№ команды Команда Результат выполнения команды
1 export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5 вызывает программу hisat2-2.0.5, лежащую в данной директории
2 hisat2-build chr17.fasta chr17 индексирует референсную последовательность, выдаёт несколько файлов .ht2 формата
3 hisat2 -x chr17 -U chr17clean.fastq --no-spliced-alignment --no-softclip > align.sam строит выравнивание прочтений и референса (результаты сохранены в файл align.sam)

Анализ выравниваний.

В результате вызова команды hisat2 --no-spliced-alignment --no-softclip -x chr17 -U chr17clean.fastq была получена информация о выравнивании. 34 прочтения (0.31%) не были выравнены совсем, 7109 прочтения (65.41%) были выравнены ровно 1 раз, и 3725 прочтений (34.27%) были выравнены более 1 раза.

Часть III: Анализ SNP.

Поиск SNP и инделей.

Использованные команды:
№ команды Команда Результат выполнения команды
1 samtools view align.sam -bo align.bam переводит выравнивание с референсом в бинарный формат
2 samtools sort align.bam -T sort.txt -o sorted.bam сортирует выравнивание чтений с референсом по координате в референсе начала чтения
3 samtools index sorted.bam индексирует отсортированный .bam файл
Использованные команды:
№ команды Команда Результат выполнения команды
1 samtools mpileup -uf chr17.fasta sorted.bam -o snp.bcf cоздаёт файл в полиморфизмами в формате .bcf
2 bcftools call -cv snp.bcf -o snp.vcf создаёт файл со списком отличий между референсом и прочтениями в формате .vcf - файл snp.vcf

По результатам выдачи команды bcftools было найдено 58 полиморфизмов, из которых 4 инделя и 54 snp. Глубина покрытия и качество чтений сильно варьируются, но примерно треть полиморфизмов имеет покрытие выше 100 и качество выше 200, что является хорошим показателем.

Позиция Тип полиморфизма Референс Прочтение Глубина покрытия Качество чтений
44788310 замена G A 74 221.999
79534241 делеция ATCTTTCT ATCT 4 13.657
44554051 делеция aaataataataataataataat aaataataataataataat 1 22.4955

Аннотация SNP.
Задача: с помощью программы annovar проаннотировать полученные snp, используя базы данных: refgene, dbsnp, 1000 genomes, GWAS, Clinvar.

Команда: perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 /nfs/srv/databases/ngs/s.kozyulina/snp.vcf > /nfs/srv/databases/ngs/s.kozyulina/snp.avinput
Выдача: файл, необходимый для работы annovar.

Поиск по базам данных:

  1. Аннотация по dbsnp
  2. Аннотация по refgene
  3. Аннотация по Clinvar
  4. Аннотация по 1000Genomes
  5. Аннотация по GWAS

Таблица со всеми snp и их характеристиками, полученными выше: results.xlsx


© Svetlana Kozyulina 2017