Ресеквенирование. Поиск полиморфизмов у человека

Я работала с чтениями последовательности пятой хромосомы человека и с пятой хромосомой из сборки h19.

Сначала с помощью программы FastQC был проведен контроль качества данных чтений. Программу можно запустить командой fastqc chr5.fastq. Результат работы программы - набор картинок, иллюстрирующих качество чтений на основании множества параметров. Все изображения можно посмотреть по ссылке chr5_fastqc.
На рисунке 1 представлены основные характеристики файла с чтениями, такие как число последовательностей, разброс их длины и средний GC-состав. Наиболее показательно качество чтений иллюстрирует распределение качества по нуклеотидам (per base sequence quality). Это изображение представлено на рисунке 2.

Рисунок 1. Общая информация о наборе чтений.

Рисунок 2. Качество нуклеотидов в чтениях ("Per base sequence quality"). По горизонтальной оси отложена позиция в последовательности (в п.о.), по вертикальной оси - разброс качества по всем чтениям.

Далее я произвела очистку чтений, отрезав с конца нуклеотиды с качеством ниже 20 и оставив только последовательности, длина которых составляет более 50 нуклеотидов. Для этого была использована программа Trimmomatic. Для проведения такой очистки была использована команда java -jar /usr/share/java/trimmomatic.jar SE -phred33 infile.fastq outfile.fastq TRAILING:20 MINLEN:50. Результат работы программы представлен на рисунке 3.

Рисунок 3. Результат работы программы Trimmomatic.

Как видно из рисунка 3, Trimmomatic отсеял 94 последовательностей (1.15%). Из них 2 было удалено после проведения TRAILING (отрезание нуклеотидов с плохим качеством с конца), а остальные - из-за несоответствующей длины (меньше 50 п.о.). По рисунку 1 видно, что в исходном файле присутствовали чтения с длиной от 41 п.о. В обработанном файле такие последоватеьности были удалены.

Качество очищенных чтений также было проанализировано программой FastQC. Все полученные иллюстрации доступны по ссылке chr5mod_fastqc. На рисунках 4 и 5 приведены изображения, аналогичные рисункам 1 и 2, только для очищенных чтений.

Рисунок 4. Общая информация о наборе чтений после очистки с помощью программы Trimmomatic.

Рисунок 5. Качество нуклеотидов в чтениях после очистки.

Из рисунков 1 и 4 видно, что исходное число чтений составляло 8208, а после чистки чтений стало 8114. Подтверждение того, что среди очищенных чтений остались только те, длина которых более 50 п.о., представлено на картинках "Sequence Length Distribution". Результат отрезания нуклеотидов с плохим качеством с конца последовательности представлен на рисунках 2 и 5. Если посмотреть на последний столбик, то видно, что среднее качество при очистке изменилось с 28 до 32, а нижняя граница - с 2 до 25.

Затем я приступила к картированию чтений. В качестве референсной последовательности я использовала последовательность пятой хромосомы человека из сборки h19.
Сначала я проиндексировала референсную последовательность с помощью программы BWA. Для этого использовалась команда bwa index chr5.fasta. Затем было построено вырванивание очищенных чтений с проиндексированной референсной последовательносью командой bwa mem chr5.fasta chr5mod.fastq > chr5.sam.
С помощью пакета samtools полученный файл chr5.bam был переведен в файл формата .sam. Для этого была использована команда samtools view chr5.sam -b -o chr5.bam. Опция -b задает формат выходного файла .bam, опция -o позволяет указать его название.
Полученный .bam файл с выравниваниями чтений с референсом был отсортирован по координате начала чтения в референсе с помощью команды samtools sort -T /tmp/chr5_sorted -o chr5_sorted.bam chr5.bam. Затем отсортированный файл был проиндексирован командой samtools index chr5_sorted.bam. С помощью команды samtools idxstats chr5_sorted.bam было посчитано количество чтений, откартированных на хромосому. На рисунке 6 представлены результаты работы этой программы - табличка, показывающая, что на референсную пятую хромосому откартировалось 8113 чтений (все, кроме одного). Также в таблице указана длина пятой хромосомы, равная 180,915,260 п.о. Что означает цифра 2 в нижней строке я, к сожалению, не смогла понять.

Рисунок 6. Результат работы программы samtools idxstats.

С помощью команды samtools mpileup -uf chr5.fasta chr5_sorted.bam -o chr5snp.bcf был создан файл с полиморфизмами в формате .bcf. Затем этот файл был переведен в файл в формате .vcf командой bcftools call -cv chr5snp.bcf -o chr5snp.vcf. Файл chr5snp.vcf содержит список отличий между референсом и чтениями.
Всего найдено 32 полиморфизма, среди которых 4 инделя и 28 замен одного нуклеотида. В таблице 1 представлена информация о некоторых из них. Также эти замены были визуализированы с помощью программы IGV. Изображения представлены на рисунках 6-9.

Таблица 1. Информация о четырех полиморфизмах, найденных при выравнивании чтений с референсной последовательностью - пятой хромосомой человека.
Координата	Тип полиморфизма	Референс	Чтения	Глубина покрытия	Качество чтений
35,857,235	Замена	C	G	86	221.999
35,875,593	Замена	A	T	43	221.999
74,639,576	Вставка	C	CAA	36	217.468*
74,651,084	Замена	A	G	91	221.999

* - указано, что число чтений, подтверждающих данную замену, равно 12

Рисунок 6. Изображение замены C на G в интроне гена IL7R. Столбик выделяет замены в чтениях, снизу указана референсная последовательность. Верхняя панель отображает положение на пятой хромосоме. Изображение получено с помощью программы IGV.

Рисунок 7. Изображение замены A на T в интроне гена IL7R.

Рисунок 8. Изображение вставки (буква I, вставка AA) в интрон гена HMGCR. Вставка произошла между нуклеотидами C и T в референсе.

Рисунок 9. Изображение замены A на G в интроне гена HMGCR.

Полученный список SNP (без инделей) я проаннотировала с помощью программы Annovar с использованием пяти баз данных: refgene, dbsnp, 1000 genomes, GWAS, Clinvar. Для этого я использовала команды, представленные в таблице 2.

По результатам анализа с помощью базы RefGene было обнаружено 16 гомозиготных замен и 12 гетерозиготных (hom и het соответственно). SNP при аннотации по базе данных RefGene классифицируются по положению, которое они занимают в геноме, то есть попадают ли они в экзоны или интроны генов, в межгенные области, в гены некодирующих РНК или в 3'- и 5'-некодирующие области (UTR3 и UTR5). Из описываемых SNP 4 попадают в экзоны, 1 - в UTR3 и остальные 23 - в интроны. Замены попали в гены IL7R, CAPSL и HMGCR, однако затронули экзоны только первых двух генов из перечисленных. Все замены в экзонах несинонимичные, то есть они приводят к замене аминокислоты в белковой последовательности.
Ген CAPSL кодирует кальций-связывающий белок кальцифозин. Замена C на T приводит к замене аргинина на глутамин в белке (R85Q), однако по данным UniProt такая замена является естественным полиморфизмом (ссылка: CAPSL_HUMAN).
Ген IL7R кодирует альфа-цепь рецептора интерлейкина-7. Показано, что этот белок участвует в рекомбинации вариаебльных участков в генах иммуноглобулинов при развитии лимфоцитов. Проведенные исследования в мышах показывают, что этот белок необходим для блокировки апоптоза при дифференциации Т-лимфоцитов. Мутации в этом белке могут приводить к развитию тяжелого комбинированного иммунодефицита (SCID), а также некоторых заболеваний, таких как Т-клеточная острая лимфобластная лейкимия, рассеянный склероз, ревматоидный артрит и ювенильный идиопатический артрит.
Полный список нуклеотидных замен представлен в таблице excel: snp.xlsx. Замены в экзонах привели к следующим аминокислотным заменам: в гене IL7R I66T, V138I, T244I; в гене CAPSL R85Q. Такой формат записи означает, что аминокислота слева (первая буква), находящаяся в позиции, номер которой указан в центре, заменена на аминокислоту справа.

Из найденных SNP rs имеют 24 штуки, не имеют - 4. rs - это идентификатор записи данной замены в базе данных dbSNP. Таким образом, в этой базе не аннотировано всего 4 замены. В основном не имеют rs SNP с очень низким качеством и покрытием. В целом, замен с качеством меньше 20 найдено 4, с покрытием меньше 20 - 11.
Клиническое описание SNP предоставляют базы данных Clinvar и GWAS. Clinvar выделяет 3 замены в гене IL7R, указанные выше, из которых первые 2 являются патогенными и приводят к SCID, а третья является неохарактеризованной. База GWAS описывает 5 замен, из которых одна также аннотирована в Clinvar и была выявлена при исследовании рассеянного склероза и диабета первого типа. Вторая замена - уже упоминавшийся естественный полиморфизм, который также, по данным GWAS, имеет отношение к диабету первого типа. Остальные три SNP относятся к интронным участкам гена HMGCR и к его 3'-некодирующей области и были обнаружены при изучении уровней холестерина.

Результаты по всем базам данных представлены в сводной таблице excel (snp.xlsx). Все использованные в практикуме команды описаны в таблице 2.

Таблица 2. Команды, использованные в практикуме, для описания полиморфизмов человека.
Команда	Что делает
fastqc chr5.fastq	анализирует качество чтений
java -jar /usr/share/java/trimmomatic.jar SE -phred33 infile.fastq outfile.fastq TRAILING:20 MINLEN:50	очищает чтения: сначала отрезает с конца каждого чтения нуклеотиды с качеством ниже 20, затем удаляет чтения длиной меньше 50 нуклеотидов
bwa index chr5.fasta	индексирует референсную последовательность (пятую хромосому человека)
bwa mem chr5.fasta chr5mod.fastq > chr5.sam	строит выравнивание чтений с референсной последовательностью, то есть картирует все чтения по хромосоме
samtools view chr5.sam -b -o chr5.bam	переводит выравнивание чтений с референсом в бинарный формат, с которым потом работают программы
samtools sort -T /tmp/chr5_sorted -o chr5_sorted.bam chr5.bam	сортирует выравнивание чтений с референсом по координате начала чтения в референсе
samtools index chr5_sorted.bam	индексирует отсортированный файл
samtools idxstats chr5_sorted.bam	определяет, сколько чтений откартировалось на хромосому
samtools mpileup -uf chr5.fasta chr5_sorted.bam -o chr5snp.bcf	создает файл с полиморфизмами
bcftools call -cv chr5snp.bcf -o chr5snp.vcf	переводит полученный .bcf файл в список отличий между референсом и чтениями в формате .vcf.
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 chr5snp.vcf -outfile chr5snp.avinput *	создает на основе файла .vcf файл, с которым может работать annovar
*perl /annotate_variation.pl -geneanno -dbtype refGene -buildver hg19 chr5snp.avinput -outfile chr5snp_refgene /humandb/*	аннотирует файл со списком SNP по базе данных refgene с использованием сборки генома человека h19
*perl /annotate_variation.pl -filter -dbtype snp138 -buildver hg19 chr5snp.avinput -outfile chr5snp_snp138 /humandb/*	аннотирует файл со списком SNP по базе данных dbsnp
*perl /annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 chr5snp.avinput -outfile chr5snp_1000g2014oct /humandb/*	аннотирует файл со списком SNP по базе данных 1000genomes
*perl /annotate_variation.pl -regionanno -dbtype gwasCatalog -buildver hg19 chr5snp.avinput -outfile chr5snp_gwas /humandb/*	аннотирует файл со списком SNP по базе данных GWAS
*perl /annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 chr5snp.avinput -outfile chr5snp_clinvar /humandb/*	аннотирует файл со списком SNP по базе данных Clinvar

* - далее адрес /nfs/srv/databases/annovar будет обозначаться символом *