| Подготовка чтений |
0. Для выполнения были взяты файлы chr4.fasta и chr4.fastq с хромосомой и ридами соответственно;
1. Для анализа качества чтений была использована программа FastQC; команда:
fastqc chr4.fastq
• Результат: архив (.zip), который содержит отчет о программе в виде html файла;
2. Для очистки чтений была использована программа Trimmomatic на kodomo в следующем виде:
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 chr4.fastq chr4out.fastq TRAILING:20 MINLEN:50
До программы Trimmomatic (5810 чтений):
После программы Trimmomatic (5715 чтений):
Описание изображений:
• На изображениях представлены диаграммы размахов;
• Желтые прямоугольники отражают интерквартальный размах (разница между нижнем квартилем (такое значение качества, что качество 25% чтений на данной позиции ниже его) и верхним квартилем (такое значение качества, что качество 25% чтений на данной позиции выше его));
• Красные линии - медианы значений качества на данной позиции;
• Синяя линия - среднее значение качества;
• После выполнения программы Trimmomatic были отрезаны концы прочтений с качетсвом ниже 20, и были удалены прочтения длиной меньше 50 нуклеотидов, и были отрезаны
| Картирование чтений |
3. Программа Hisat2
• Для картирования последовательности была использована команда Hisat2;
• Команда для эксорта файлов, необходимых для работы программы:
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5
• Команды Hisat2, использованные для картирования последовательности:
- Индексирование референсной последовательности;
hisat2-build chr4.fasta chr4
-Результат: набор файлов в формате ht2;
- Построение выравнивания прочтений и референса в формате .sam;
hisat2 -x chr4 -U chr4out.fastq --no-spliced-alignment --no-softclip > alignment.sam
- Результат: файл alignment.sam
4. Анализ выравнивания;
• Операции и команды:
- Перевод выравнивания чтений с референсом в бинарный формат .bam (samtools view);
samtools view alignment.sam -b -o alignment.bam
- Результат: файл alignment.bam
- Сортировка выравнивания чтений с референсом по координате в референсе начала чтения (samtools sort);
samtools sort alignment.bam -T sorted.txt -o alignsorted.bam
- Результат: файл alignsorted.bam
- Индексация отсортированного .bam файла (samtools index)
samtools index alignsorted.bam
- Результат: alignsorted.bam, alignsorted.bam.bai
- Информация о количестве откартированных чтений;
samtools idxstats alignsorted.bam > align.txt
- Результат: файл align.txt; его содержание:
chr4 191154276 5697 0 * 0 0 19
• Всего было откартировано 5697 ридов; 19 ридов не были откартированы;
| Анализ SNP |
5. Поиск SNP и инделей
• Операции и команды:
- Создание файла с полиморфизмами в формате .bcf (samtools mpileup);
samtools mpileup -uf chr4.fasta alignsorted.bam > snp.bcf
- Результат: файл snp.bcf
- Создание файла со списком отличий между референсом и чтениями в формате .vcf;
bcftools call -cv snp.bcf -o snp.vcf
- Результат: файл snp.vcf
• Исходя из информации в файле snp.vcf всего было найдено 45 однонуклеотидных замен и 4 инделя; характеристика для трех случайных записей:
Таблица 1Координата | Тип полиморфизма | Референс | Чтение | Глубина покрытия | Качество чтений |
88759690 | Замена | T | C | 48 | 225.009 |
88760642 | Вставка | AAGAGA | AAGAGAGA | 16 | 81.4666 |
187165211 | Замена | T | C | 1 | 7.79993 |
• Качество и покрытие довольно сильно различается у разных замен или вставок;
6. Аннотация SNP
• Операции и команды:
- Получение файла, с которым будет производиться работа программой annovar (команда convert2annovar.pl);
convert2annovar.pl -format vcf4 snp.vcf > snp.avinput
- Результат: файл snp.avinput, из которого впоследствии вручную были удалены строчки с инделями (4 строки);
- Аннотация по базе данных dbsnp (определение snp, имеющих rs; filter-based annotation)
annotate_variation.pl -filter -out info_rs__snp -build h19 -dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb.old/
- Результат: 3 файла:
~ info_rs__snp.hg19_snp138_dropped - файл, содержащий те snp, которые соответствуют
заданным критериям (то есть содержат rs);
~ info_rs__snp.hg19_snp138_filtered - файл с snp, не содержащими rs;
~ info_rs__snp.log - файл, содержащий поясняющую информацию к полученным файлам;
В итоге 41 из 45 полиморфизмов имеют rs, а 4 - не имеют.
- Аннотация по базе данных refgene (gene-based annotation);
annotate_variation.pl -out ex1 -build hg19 snp.avinput /nfs/srv/databases/annovar/humandb.old/
- Результат: ex1.variant_function, ex1.exonic_variant_function, ex1.log;
~ ex1.variant_function - файл, содержащий описания для всех возможных вариантов полиморфизмов;
~ ex1.exonic_variant_function - файл, содержащий описания для тех полиморфизмов, которые расположены в эконах;
~ ex1.log - файл, содержащий поясняющую информацию к работе программы;
В итоге полиморфизмы были разделены на несколько категорий:
• exonic - полиморфизмы, лежащие в пределах экзонов (3 полиморфизма из 45);
• intronic - полиморфизмы, лежащие в пределах интронов (36 полиморфизмов из 45);
• intergenic - полиморфизмы, лежащие в пересечении генов (3 из 45);
• downstreаm - полиморфизмы, лежащие в пределах 1kb от сайта окончания транскрипции (2 из 45);
• UTR3 - полиморфизмы, лежащие в 3'-нетранслируемой области ( 1 из 45);
- Аннотация по базе данных 1000 genomes (filter-based annotation);
annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out 1000g snp.avinput /nfs/srv/databases/annovar/humandb.old/
- Результат: 1000g.hg19_ALL.sites.2014_10_dropped, 1000g.hg19_ALL.sites.2014_10_filtered, 1000g.log
~ 1000g.hg19_ALL.sites.2014_10_dropped - файл, содержащий все полиморфизмы, у которых есть rs в базе данных 1000 genomes;
~ 1000g.hg19_ALL.sites.2014_10_filtered - файл, содержащий все полиморфизмы, у которых нет rs в базе данных 1000 genomes;
~ 1000g.log - файл, содержащий поясняющую информацию к работе программы;
В итоге 39 из 45 полиморфизмов имели запись в 1000genomes, 6 - не имели.
- Аннотация по базе данных Gwas (region-based annotation);
annotate_variation.pl -regionanno -build hg19 -out gwassnp -dbtype gwasCatalog snp.avinput /nfs/srv/databases/annovar/humandb.old/
- Результат: gwassnp.hg19_gwasCatalog, gwassnp.log
~ gwassnp.hg19_gwasCatalog - файл, содержащий информацию о тех полиморфизмах, для которых известны вызываемые ими заболевания;
Были обнаружены полиморфизмы, связанные с болезнью Паркинсона, факторами риска кардиоваскулярных заболеваний, ожирением и
уровнем метаболитов;
~ gwassnp.log - файл с описанием работы программы;
- Аннотация по базе данных Clinvar (filter-based annotation);
annotate_variation.pl -filter -out clinvarsnp -build hg19 -dbtype clinvar_20150629 snp.avinput /nfs/srv/databases/annovar/humandb.old/
- Результат: clinvarsnp.hg19_clinvar_20150629_dropped, clinvarsnp.hg19_clinvar_20150629_filtered, clinvarsnp.log
~ clinvarsnp.hg19_clinvar_20150629_dropped - файл, содержащий полиморфизмы, которые входят в базу данных Clinvar, т.е. имеют
клиническое значение; в файл вошел один полиморфизм, связанный с дефицитов прекалликреина;
~ clinvarsnp.hg19_clinvar_20150629_filtered - файл, содержащий полиморфизмы, у которых нет записи в Clinvar (остальные 44 полиморфизма);
~ clinvarsnp.log - файл с описанием работы программы;
©Машковская Анна, 2018