Ресеквенирование. Поиск полиморфизмов у человека.


Команды, которые использовались


Команда Её функция
fastqc chr13.fastq вызывает программу FastQC, на выходе отдаёт .zip архив с отчётом программы в HTML-формате.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr13.fastq trimm.fastq TRAILING:20 MINLEN:50 делает очистку чтений:
TRAILING:20 отрезает с конца каждого чтения нуклеотиды с качеством <20
MINLEN:05 убирает чтения с длиной меньше 50 нуклеотидов


Часть I: подготовка чтений


Анализ качества чтений

Анализ и очистка чтений проводились для файла chr13.fastq.

С помощью программы FastQC проведён контроль качества скачанных чтений. Отчёт программы можно увидеть здесь.

В отчёте программы FastQC можно найти информацию о исследуемых чтениях. В скачанном файле используется кодировка Sanger / Illumina 1.9. Всего файл содержит 12155 чтений. Последовательности имеют длину от 30 до 100 нуклеотидов. Чтения содержат 41% глутамина и цитозина.


Очистка чтений

Была проведена очистка чтений с помощью программы Trimmomatic.
Адаптеры уже были удалены. С каждого конца прочтения отрезаны нуклеотиды с качеством ниже 20 (опция TRAILING:20), удалены прочтения длиной меньше 50 нуклеотидов (опция MINLEN:50). При запуске программы указан phred33 формат fastq (для Sanger / Illumina 1.9).
В итоге, для запуска Trimmomatic использовалась команда:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr13.fastq trimm.fastq TRAILING:20 MINLEN:50

В результате получен новый файл с чтениями - trimm.fastq, который снова был проанализирован с помощью FastQC. Отчёт по очищенным чтениям пожно увидеть здесь.

Отчёт FastQC отличается от аналогичного для файла с неочищенными чтениями. Теперь файл содержит 11933 чтений (количество уменьшилось не сильно, что говорит о том, что чтения изначально были довольно хорошими). Длина чтений теперь варьирует от 50 до 100 нуклеотидов, т. к. сначала чтения были обрезаны, а потом удалены те из них, которые имели длину меньше 50. Процентное содержание гуанина и цитозина осталось неизменным.



Оценка

Качество нуклеотидов (т. е. точность определения нуклеотида в каждой позиции) в целом возросло, но не очень значительно. Это отражает график Per base sequence quality. Здесь представлено сравнение исходного и улучшенного с помощью программы Trimmomalic графики. До обработки Trimmomatic на графике были нуктеотиды, минимальная оценка качества которых попадала в красную зону, после улучшения их качество заметно улучшилось.

Графики, отражающие качество каждого нуклеотида в чтениях (Per base sequence quality). Слева приведён график для исходного файла с чтениями, справа - график после улучшения с помощью программы Timmomatic. Графики получены с помощью программы FastQC.

График, отражающий частоту встречаемости каждого из четырёх нуклеотидов (Per base sequence content) совсем не изменился.

Графики, отражающие распределение длин чтений (Per base sequence content). Слева приведён график для исходного файла с чтениями, справа - график после улучшения с помощью программы Timmomatic. Графики получены с помощью программы FastQC.

Совсем немного изменилось распределение длин чтений. На графиках Sequence length distributionможно увидеть, что до улучшения все чтения имели длину от 30 до 100, а после улучшения - от 50 до 100. Однако, всё равно почти все чтения имеют длину 100 нуктеотидов, количество более коротких чтений незначительно.

Графики, отражающие распределение длин чтений (Sequence length distribution). Слева приведён график для исходного файла с чтениями, справа - график после улучшения с помощью программы Timmomatic. Графики получены с помощью программы FastQC.

Часть II: картирование чтений на референсный геном


Картирование чтений

Чтения, уже очищенные в первой части практикума, были картированы на геном участка хромосомы человека с помощью программы BWA.

Геномы были проиндексированы с помощью комманды: "bwa index chr13.fasta".
Затем было построено выравнивание прочтений и референса в формате .sam при помощи команды: "bwa mem chr13.fasta trimm.fastq > out.sam".

Анализ выравнивания

Затем для анализа полученных результатов использовалась программа SAMtools. Сначала файл был переведён из формата .sam в .bam (комманда view с опциями -b -S -h; -h включает заголовки в выходной файл),
затем отсортировать информацию об откартированных чтениях (комманда sort),
проиндексировать (комманда index)
и получить нужную нам статистику (команда idxstats).

Таким образом, последовательно были произведены следующие комманды:

samtools view -b -S -h out.sam > out.bam

samtools sort out.bam out_sorted

samtools index out_sorted.bam

samtools idxstats out_sorted.bam


Чтобы узнать, какое количество чтений откартировалось на 13 хромосому, и использовалась последняя программа (samtools idxstats). В верхней строчке первое число(113169878) означает длину последовательности, а второе(11932) - количество чтений, которые картируются на 13ую хромосоиму, т. е. все, кроме одного.


Часть III: Анализ SNP


Поиск SNP и инделей

Однонуклеотидный полиморфизм - отличия последовательности ДНК размером в один нуклеотид в геноме представителей одного вида или между гомологичными участками гомологичных хромосом. Под инделями подразумеваются делеции (потеря учатка хромосомы), а инсерции (вставка в нуклеотидной последовательности).

Поиск однонуклеотидных полиморфизмов и инделей, содержащихся в чтениях, очистка и картирование которых была произведена во время выполнения заданий предыдущих частей практикума. Для поиска однонуклеотидных полиморфизмов и инделей использовались программы samtools и bcftools.

Чтобы создать файл с полиморфизмами в формате .bcf, использовалась программа: "samtools mpileup -uf chr13.fasta out_sorted.bam -o chr13_snp.bcf".
Опция -u - несжатый вариант .bcf файла, в то время как -f говорит о том, что файл с референсной последовательностью представлен в формате fasta. Файл chr13_snp.bcf

Затем был получен файл chr13_snp.vcf с помощью программы bcftools call со списком отличий картированного генома и референсной последовательности.

В файле chr13_snp.vcf содержится 137 найденных отличий от референса, среди которых 13 инделей.
Координата Полиморфизм Референс (REF) Чтения (ALT) Глубина покрытия (DP) Качество чтений(QUAL)
50092127 Индель (делеция) TACTCA TA 102 217.468
25511130 Инсерция (вставка) T TGA 9 165.469
25506914 Замена G T 3.54462 2


Аннотация SNP

Полученный список SNP (без инделей) нужно было проаннотировать с помощью программы Annovar, используя 5 разных баз данных: refgene, dbsnp, 1000 genomes, GWAS, Clinvar.

Для работы с программой annovar из .vcf файла необходимо получить файл, с которым умеет работать эта программа.
Это было сделано с помощью скрипта convert2annovar.pl, команда: ./convert2annovar.pl -format vcf4 chr13_snp.vcf -outfile 1_chr13.avinput

База данных refgene

Аннотация получена с помощью команды ./annotate_variation.pl -out 0_refgene -build hg19 1_chr13.avinput /nfs/srv/databases/annovar/humandb/

Все sn p делятся на hom и het - их 48 и 59 соответственно. Для экзонных snp выделяют гомологичные и негомологичные замены.

База данных dbsnp

Аннотация получена с помощью команды ./annotate_variation.pl -filter -out 0_dbsn p -build hg19 -dbtype snp138 1_chr13.avinput /nfs/srv/databases/annovar/humandb/

База данных 1000 genomes

Аннотация получена с помощью команды ./annotate_variation.pl -filter -out 0_1000genomes -build hg19 -dbtype 1000g2014oct_all 1_chr13.avinput /nfs/srv/databases/a nnovar/humandb/

База данных GWAS

Аннотация получена с помощью команды ./annotate_variation.pl -regionanno -out 0_gwas -build hg19 -dbtype gwasCatalog 1_chr13.avinput /nfs/srv/databases/annovar/humandb/

База данных Clinvar

Аннотация получена с помощью команды ./annotate_variation.pl -filter -out 0_clinvar -build hg19 -dbtype clinvar_20140211 1_chr13.avin put /nfs/srv/databases/annovar/humand/


Необходимые для анализа результаты аннотаций по этим базам данных представлены в файле table.xls (то же в формате .xml)


Результаты :

В .vcf файле полиморфизмов: 13 инделей и 124 snp.
Однонуклеотидный полиморфизм (Single nucleotide polymorphism, SNP) — отличия последовательности ДНК размером в один нуклеотид (A, T, G или C) в геноме (или в другой сравниваемой последовательности) представителей одного вида или между гомологичными участками гомологичных хромосом.

В базе данных RefSeq snp делится по категориям exonic, splicing, ncRNA, UTR5, UTR3, intronic, upstream, downstream, intergenic.



В данном случае в exonic попало 7 snp, intronic - 84, 1 downstream и 1 upstream.


Хорошее ли покрытие и качество у найденных полиморфизмов? Итак, 27 SNP имеют покрытие > 10, a 9 - больше 5, то есть довольно хорошее. Вторая половина имеет покрытие <= 4, причем 40 из них имеют покрытие 1 (соответствующее качество чтений для них тоже низко, часто менее 10, возможно, что это просто ошибки секвенирования, а не действительно полиморфизмы) SNP с хорошим покрытием также имеют высокое качество чтений.

К каким нуклеотидным и аминокислотным заменам привели snp? Необходимые данные приведены в файле exonic_variant_function, полученном при аннотации по refseq. В нем содержится информация о заменах в экзонах генов и их функциональности. А базы данных GWAS и Clinvar предоставляют клинические аннотации.

По базе данных Clinval не было найдено никакой зависимости между анализируемыми snp и существующими заболеваниями.
По базе данных GWAS три замены ассоциированы со следующими призраками человека:

черты, схожие с ожирением (Obesity-related traits)

сердечная гипертрофия (Cardiac hypertrophy)

артериальная ригидность, жёсткость (Arterial stiffness)


Использованные команды:

fastqc chr13.fastq анализ чтений
java -jar /usr/share/java/trimmomatic.jar SE java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr13.fastq trimm.fastq TRAILING:20 MINLEN:50 – очистка чтений: с конца удалены нуклеотиды с качеством ниже 20, и все чтения длиной меньше 50 нуклеотидов
bwa index chr13.fasta индексирование референсной последовательности
bwa mem chr13.fasta chr13_tr.fastq > chr13.sam построение выравнивания прочтения и референса
samtools view -b -o chr13.bam chr13.sam перевод файла в бинарный формат .bam
samtools sort -T /tmp/chr13_sorted -o chr13_sorted.bam chr13.bam сортировка по координате
samtools index chr13_sorted.bam индексирование
samtools idxstats chr13_sorted.bam подсчет количества откартированных чтений
samtools mpileup -uf chr13.fasta chr13_sorted.bam -o chr13_snp.bcf создание файла с полиморфизмами
bcftools call -cv chr13_snp.bcf -o chr13_snp.vcf создание файла со списком отличий между референсом и чтениями
./convert2annovar.pl -format vcf4 chr13_snp.vcf -outfile 1_chr13.avinput создание файла, с которым может работать annovar
./annotate_variation.pl -out 0_refgene -build hg19 1_chr13.avinput /nfs/srv/databases/annovar/humandb/ аннотирует файл по базе
./annotate_variation.pl -filter -out 0_dbsnp -build hg19 -dbtype snp138 1_chr13.avinput /nfs/srv/databases/annovar/humandb/ аннотирует по базе данных dbsnp
./annotate_variation.pl -filter -out 0_1000genomes -build hg19 -dbtype 1000g2014oct_all 1_chr13.avinput /nfs/srv/databases/annovar/humandb/ аннотирует файл по базе данных 1000genomes
./annotate_variation.pl -regionanno -out 0_gwas -build hg19 -dbtype gwasCatalog 1_chr13.avinput /nfs/srv/databases/annovar/humandb/ аннотирует файл по базе данных GWAS
./annotate_variation.pl -filter -out 0_clinvar -build hg19 -dbtype clinvar_20140211 1_chr13.avinput /nfs/srv/databases/annovar/humand аннотирует файл по базе данных Clinvar

СПАСИБО ЗА ПРОСМОТР


© Мария Медведева