Ресеквенирование. Поиск полиморфизмов у человека.


Задание 1. Анализ качества чтений. Очистка чтений

Я сделал контроль качества чтений с помощью программы FastQC. Результат представлен тут
и на рисунках 1 и 3.
Дальше я провел очистку чтений с помощью программы Trimmomatic. Результаты тут
и на рисунках 2 и 4.


Рисунок 1. До чистки



Рисунок 2. После чистки

После чистки наглядно уменьшилось количество линий, выходящих из «зеленой области». Это показывает, что качество прочтения значительно увеличилось. Следовательно, благодаря Trimmomatic низкокачественные чтения были вырезаны и остались лишь те, с которыми удобно работать.

На двух рисунках ниже показаано распределение качества прочтений. По оси Ох количество последовательностей, по Оу качество прочтений.

Рисунок 3. До чистки



Рисунок 4. После чистки

Хорошо видно, что после чистки было удалены последовательности с низким качеством прочтения.

Задание 2. Картирование чтений и их анализ

Все команды, которые я использовал для выполнения этого задания приведены ниже в общей таблице. В итоге был получен файл. Из этого файла можно узнать, что хромосому были откартированы 20489 чтений, а 92 чтения не были откартированны.

Задание 3. Поиск SNP и инделей

Файл со списком отличий между референсом и чтениями в формате "*.vcf" тут. Из этого файла я выбрал 3 полиморфизма и привел их характеристики в таблице ниже.
Информация о трёх полиморфизмах
Тип Координата В референсе В прочтении Качество прочтения Глубина прочтения
Замена 41291081 G A 221.999 25
Делеция 41577856 gacaaaca gaca 22.4955 1
Вставка 41824696 G GT 4.4191 1

Задание 4. Аннотация SNP

В данном задании необходимо было проаннотировать полиморфизмы по некоторым базам данных. Сводная таблица, в которую вошли все snp и их характеристики по использованным для аннотации базам данных тут.

Для начала я выбрал баззу dbsnp - filter-based annotation. Использовав команду, которая приведенна ниже в табилице, я получил 3 файлы: один файл представлены snp, имеющие rs(всего 182 snp имеют rs), во втором snp(47), не имеющие rs, а третий - отчет о работе.
Первый файл: snp138ann.hg19_snp138_dropped
Второй файл: snp138ann.hg19_snp138_filtered

Второй баззой данных я выбрал 1000 genomes - filter-based annotation. Тут так же получены 3 файла: один с полиморфизмами, имеющими rs в данной базе данных, второй с полиморфизмами, не имеющими rs в 1000 genomes, третий с отчетом о работе.
Первый файл: 1000genomesann.hg19_ALL.sites.2014_10_dropped
Второй файл: 1000genomesann.hg19_ALL.sites.2014_10_filtered
Как видно из первого файла частота полиморфизмов имеет довольно большой разброс: наименьшая частота полиморфизма 0.000599042, наибольшая - 0.996805

Дальше я взял Gwas - region-based annotation. По окончанию работы программы, я получил 2 файла: коинические даныые о полиморфизмах и отче то работе. Клинические данные: gwasann.hg19_gwasCatalog
Первый полиморфиз на позиции 41877414, произошла замена T на C, этот ген ассоциирует со значениями кровеносного давления. Второй с координатой 52720080,замена A на C, этот ген отвечает за уровнь гормона адипонектина. Два последних с координатами 171926373 и 171969077, эти гены ассоциированны с ростом организма, там тоже произошли замены.

Потом я проанотировал по баззе Clinvar - filter-based annotation. Я получил три файла, с snp аннотированные и не аннотированные в Clinvar и отчет о работе.
snp аннотированные в Clinvar: данный файл оказался пустым, следовательно ни один snp, в данной мне хромосоме, не анотирован в этой баззе данных. snp не аннотированные в Clinvar:clinvarann.hg19_clinvar_20150629_filtered

Последней базой данных была refgene - gene-based annotation. В результате было получено три выходных файла:первый с описанием всех полиморфизмов, второй с описанием их только в экзонах и отчет о работе.
Первый файл: refgeneann.variant_function
Второй файл: refgeneann.exonic_variant_function
Полиморфизмы находятся в двух генах: ULK4 и FNDC3B. Все эти мутации - замены нуклеотидов, но не все мутации привели к новым белковым продуктам. Из первого файла видно, что большая часть мутаций приходится на интроны, как и ожидалось мною,потому что мутации в экзонах могут проводить к нарушениям в экспресии генов.


Ниже я привел все команды, которые были использованы для получения результатов во всех заданиях.
Использованные команды
1 Анализ качества чтений Что сделанно
fastqc chr3.fastq  проведен контроль качества с помощью программы FastQC
2 Очистка чтений
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr3.fastq chr3_new2.fastq TRAILING:20 MINLEN:50 проведена очистка чтений с помощью программы Trimmomatic
3 Картирование чтений
hisat2-build chr3.fasta chr3_his.fasta  проиндексирована референсная последовательность
hisat2 -x chr3_ршы.fasta -U chr3_new2.fastq --no-spliced-alignment --no-softclip > 1.sam  построиенно выравнивание прочтений и референса в формате "*.sam"
 
4 Анализ выравнивания
samtools view 1.sam -b -o 1.bam  переведено выравнивание чтений с референсом в бинарный формат "*.bam*
samtools sort 1.bam -T 0.txt -o sort.bam отсортировано выравнивание чтений с референсом по координате в референсе начала чтения
samtools index sort.bam проиндексирован отсортированный "*.bam" файл
samtools idxstats sort.bam > task4.txt записано числа откартировавшихся чтений
5 Поиск SNP и инделей
samtools mpileup -uf chr3.fasta sort.bam > 1.bcf создан файл с полиморфизмами в формате "*.bcf*
bcftools call -cv 1.bcf > 1.vcf создан файл со списком отличий между референсом и чтениями в формате "*.vcf*
6 Аннотация SNP
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 1.vcf > 1.avinput конвертирован файл из "*.vcf* в "*.avinput"
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.1 -build hg19 -dbtype 1138 1.avinput /nfs/srv/databases/annovar/humandb/ Аннотация полиморфизмов по базе данных dbsnp
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.1000g -buildver hg19 -dbtype 1000g2014oct_all 1.avinput /nfs/srv/databases/annovar/humandb/ Аннотация полиморфизмов по базе данных 1000 genomes
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.gwas -build hg19 -dbtype gwasCatalog 1.avinput /nfs/srv/databases/annovar/humandb/ Аннотация полиморфизмов по базе данных Gwas
perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.clinvar -dbtype clinvar_20150629 -buildver hg19 1.avinput /nfs/srv/databases/annovar/humandb/ Аннотация полиморфизмов по базе данных Clinvar
perl /nfs/srv/databases/annovar/annotate_variation.pl -out rs.refgene -build hg19 1.avinput /nfs/srv/databases/annovar/humandb/ Аннотация полиморфизмов по базе данных refgene

© Угольков Ярослав, 2017