Ресеквенирование; Поиск полиморфизмов у человека

~mashkovskayaav

| Подготовка чтений |


0. Для выполнения были взяты файлы chr4.fasta и chr4.fastq с хромосомой и ридами соответственно;

1. Для анализа качества чтений была использована программа FastQC; команда:

fastqc chr4.fastq

• Результат: архив (.zip), который содержит отчет о программе в виде html файла;

2. Для очистки чтений была использована программа Trimmomatic на kodomo в следующем виде:

java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr4.fastq chr4out.fastq TRAILING:20 MINLEN:50

До программы Trimmomatic (5810 чтений):

Рисунок 1

После программы Trimmomatic (5715 чтений):

Рисунок 2

Описание изображений:

• На изображениях представлены диаграммы размахов;

• Желтые прямоугольники отражают интерквартальный размах (разница между нижнем квартилем (такое значение качества, что качество 25% чтений на данной позиции ниже его) и верхним квартилем (такое значение качества, что качество 25% чтений на данной позиции выше его));

• Красные линии - медианы значений качества на данной позиции;

• Синяя линия - среднее значение качества;

• После выполнения программы Trimmomatic были отрезаны концы прочтений с качетсвом ниже 20, и были удалены прочтения длиной меньше 50 нуклеотидов, и были отрезаны


| Картирование чтений |


3. Программа Hisat2

• Для картирования последовательности была использована команда Hisat2;

• Команда для эксорта файлов, необходимых для работы программы:

export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5

• Команды Hisat2, использованные для картирования последовательности:

- Индексирование референсной последовательности;

hisat2-build chr4.fasta chr4

-Результат: набор файлов в формате ht2;


- Построение выравнивания прочтений и референса в формате .sam;

hisat2 -x chr4 -U chr4out.fastq --no-spliced-alignment --no-softclip > alignment.sam

- Результат: файл alignment.sam

4. Анализ выравнивания;

• Операции и команды:

- Перевод выравнивания чтений с референсом в бинарный формат .bam (samtools view);

samtools view alignment.sam -b -o alignment.bam

- Результат: файл alignment.bam


- Сортировка выравнивания чтений с референсом по координате в референсе начала чтения (samtools sort);

samtools sort alignment.bam -T sorted.txt -o alignsorted.bam

- Результат: файл alignsorted.bam


- Индексация отсортированного .bam файла (samtools index)

samtools index alignsorted.bam

- Результат: alignsorted.bam, alignsorted.bam.bai


- Информация о количестве откартированных чтений;

samtools idxstats alignsorted.bam > align.txt

- Результат: файл align.txt; его содержание:

 chr4	191154276	5697	0 
 *	0	0	19        
 

• Всего было откартировано 5697 ридов; 19 ридов не были откартированы;


| Анализ SNP |


5. Поиск SNP и инделей

• Операции и команды:

- Создание файла с полиморфизмами в формате .bcf (samtools mpileup);

samtools mpileup -uf chr4.fasta alignsorted.bam > snp.bcf

- Результат: файл snp.bcf


- Создание файла со списком отличий между референсом и чтениями в формате .vcf;

bcftools call -cv snp.bcf -o snp.vcf

- Результат: файл snp.vcf

• Исходя из информации в файле snp.vcf всего было найдено 45 однонуклеотидных замен и 4 инделя; характеристика для трех случайных записей:

Таблица 1
Координата Тип полиморфизма Референс Чтение Глубина покрытия Качество чтений
88759690 Замена T C 48 225.009
88760642 Вставка AAGAGA AAGAGAGA 16 81.4666
187165211 Замена T C 1 7.79993

• Качество и покрытие довольно сильно различается у разных замен или вставок;

6. Аннотация SNP

• Операции и команды:

- Получение файла, с которым будет производиться работа программой annovar (команда convert2annovar.pl);

convert2annovar.pl -format vcf4 snp.vcf > snp.avinput

- Результат: файл snp.avinput, из которого впоследствии вручную были удалены строчки с инделями (4 строки);


- Аннотация по базе данных dbsnp (определение snp, имеющих rs; filter-based annotation)

annotate_variation.pl -filter -out info_rs__snp -build h19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb.old/

- Результат: 3 файла:
~ info_rs__snp.hg19_snp138_dropped - файл, содержащий те snp, которые соответствуют заданным критериям (то есть содержат rs);
~ info_rs__snp.hg19_snp138_filtered - файл с snp, не содержащими rs;
~ info_rs__snp.log - файл, содержащий поясняющую информацию к полученным файлам;


В итоге 41 из 45 полиморфизмов имеют rs, а 4 - не имеют.


- Аннотация по базе данных refgene (gene-based annotation);

annotate_variation.pl -out ex1 -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb.old/

- Результат: ex1.variant_function, ex1.exonic_variant_function, ex1.log;

~ ex1.variant_function - файл, содержащий описания для всех возможных вариантов полиморфизмов;
~ ex1.exonic_variant_function - файл, содержащий описания для тех полиморфизмов, которые расположены в эконах;
~ ex1.log - файл, содержащий поясняющую информацию к работе программы;

В итоге полиморфизмы были разделены на несколько категорий:

exonic - полиморфизмы, лежащие в пределах экзонов (3 полиморфизма из 45);

intronic - полиморфизмы, лежащие в пределах интронов (36 полиморфизмов из 45);

intergenic - полиморфизмы, лежащие в пересечении генов (3 из 45);

downstreаm - полиморфизмы, лежащие в пределах 1kb от сайта окончания транскрипции (2 из 45);

UTR3 - полиморфизмы, лежащие в 3'-нетранслируемой области ( 1 из 45);


- Аннотация по базе данных 1000 genomes (filter-based annotation);

annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000g snp.avinput /nfs/srv/databases/annovar/humandb.old/

- Результат: 1000g.hg19_ALL.sites.2014_10_dropped, 1000g.hg19_ALL.sites.2014_10_filtered, 1000g.log

~ 1000g.hg19_ALL.sites.2014_10_dropped - файл, содержащий все полиморфизмы, у которых есть rs в базе данных 1000 genomes;
~ 1000g.hg19_ALL.sites.2014_10_filtered - файл, содержащий все полиморфизмы, у которых нет rs в базе данных 1000 genomes;
~ 1000g.log - файл, содержащий поясняющую информацию к работе программы;

В итоге 39 из 45 полиморфизмов имели запись в 1000genomes, 6 - не имели.


- Аннотация по базе данных Gwas (region-based annotation);

annotate_variation.pl -regionanno -build hg19 -out gwassnp -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb.old/

- Результат: gwassnp.hg19_gwasCatalog, gwassnp.log

~ gwassnp.hg19_gwasCatalog - файл, содержащий информацию о тех полиморфизмах, для которых известны вызываемые ими заболевания; Были обнаружены полиморфизмы, связанные с болезнью Паркинсона, факторами риска кардиоваскулярных заболеваний, ожирением и уровнем метаболитов;
~ gwassnp.log - файл с описанием работы программы;


- Аннотация по базе данных Clinvar (filter-based annotation);

annotate_variation.pl -filter -out clinvarsnp -build hg19 -dbtype clinvar_20150629 snp.avinput /nfs/srv/databases/annovar/humandb.old/

- Результат: clinvarsnp.hg19_clinvar_20150629_dropped, clinvarsnp.hg19_clinvar_20150629_filtered, clinvarsnp.log

~ clinvarsnp.hg19_clinvar_20150629_dropped - файл, содержащий полиморфизмы, которые входят в базу данных Clinvar, т.е. имеют клиническое значение; в файл вошел один полиморфизм, связанный с дефицитов прекалликреина;
~ clinvarsnp.hg19_clinvar_20150629_filtered - файл, содержащий полиморфизмы, у которых нет записи в Clinvar (остальные 44 полиморфизма);
~ clinvarsnp.log - файл с описанием работы программы;


©Машковская Анна, 2018