На главную


Ресеквенирование. Поиск полиморфизмов у человека

Таблица 1. Используемые файлы и команды
Название файла/программыКомандаРезультатОписание
Исходный файл Ссылка для скачивания-
1. Анализ качества чтений
программа FastQC
установлена на компьютер, на вход получает файл .fastqchr2_fastqc.html
2. Очистка чтений
программа Trimmomatic
Удалить буквы с качеством ниже 28 с конца
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr2_.fastq chr2_1.fastq TRAILING:28
Удалить последовательности длиной меньше 50 п.о.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr2_1.fastq chr2_2.fastq MINLEN:50
chr2_2.fastqКоманда TRAILING удаляет буквы с качеством ниже установленного с конца рида. Команда MINLEN удаляет риды длиной меньше установленного значения
Сравнение качества полученного файла с первоначальным
программа FastQC
установлена на компьютер, на вход получает файл .fastq-chr2_2_fastqc.html
3.Картирование чтений
Путь до файлов, содержащих программу Hisat2 export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5
Индексирование референсного файла: hisat2-build chr2.fasta chr2
Построение выравниваний референса и прочтений: hisat2 -x /nfs/srv/databases/ngs/azbukinanadezda/chr2 -U /nfs/srv/databases/ngs/azbukinanadezda/chr2.fastq --no-softclip --no-spliced-alignment >chr2.sam
/nfs/srv/databases/ngs/azbukinanadezda/chr2.samКоманда hisat2-build индексирует референсную последовательность ДНК. На выход выдает 6 файлов (*.1.ht2, *.2.ht2 и т.д.). Все они нужны для выравнивания сиквенсов с референсов. Интересно заметить, что исходный fasta файл с референсом больше не нужен. В общем, эта команда способна индексировать геномы любого размера. Если размер референса меньше 4*10^9 п.н., то индекс записывается в 32-битном формате ("small"), если больше - то в 64-битном и выходные файлы тогда называются *.1.ht21,"large". Пользователь может изменить выдачу с помощью флага --large-index.
Команда hisat2 выравнивает прочтения и референс. Флаг -x указывает на путь к проиндексированному референсу, флаг -U - к файлу с ридами. Флаг --no-softclip запрещает подрезать нуклеотиды с концов ридов для выравнивания, --no-spliced-alignment запрещает разрезать рид и искать его куски на экзонах (тк мы секвенируем ДНК, а не мРНК).
4. Анализ выравнивания
пакет samtools
Переведение в бинарный формат : samtools view -bS chr2.sam > chr2.bam
Сортировка по координате в референсе начала чтения: samtools sort chr2.bam chr2sorted
Индексация файла samtools index chr2sorted.bam
/nfs/srv/databases/ngs/azbukinanadezda/chr2sorted.bamsamtools view переводит файл с выравниваниями в бинарный формат. samtools sort сортирует полученный бинарный файл по начальным координатам (по умолчанию). Затем файл индексируется.
5. Поиск SNP.
Создание файла с полиморфизмами в формате .bcf
samtools mpileup -I chr2sorted.bam -uf chr2.fasta -g -o task5/nfs/srv/databases/ngs/azbukinanadezda/task5
Файл со списком отличий bcftools call task5 -cv >chr2.vcf chr2.vcf
6. Анализ
Annovar
Подгодовка файла
perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 chr2.vcf > chr2.avinput
/nfs/srv/databases/ngs/azbukinanadezda/chr2.avinput
Поиск rs, dbSNPperl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs -build hg19 -dbtype snp138 chr2.avinput /nfs/srv/databases/annovar/humandb/Здесь и далее все команды организованны по принципу perl /скрипт/ - запускает скрипт,-build указывается версия сборки генома человека, -dbtype в какой базе данных искать, и в конце файл на вход.
Refgenperl /nfs/srv/databases/annovar/annotate_variation.pl -out refgene -build hg19 chr2.avinput /nfs/srv/databases/annovar/humandb/
1000genomesperl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype 1000g2014oct_all -buildver hg19 -out ex1 chr2.avinput /nfs/srv/databases/annovar/humandb/
Gwasperl /nfs/srv/databases/annovar/annotate_variation.pl -regionanno -build hg19 -out gwas -dbtype gwasCatalog chr2.avinput /nfs/srv/databases/annovar/humandb/
Clinvarperl /nfs/srv/databases/annovar/annotate_variation.pl -filter -dbtype clinvar_20150629 -buildver hg19 chr2.avinput -outfile clinvar /nfs/srv/databases/annovar/humandb/

Очистка чтений и анализ их качества

Описание команд и ссылки на результаты доступны в таблице (все необходимые изображения расположены на html странице, ссылка в таблице). В исходном файле до чистки было 10410 последовательностей длиной 40-100 нуклеотидов. В результате чистки с помощью прорамммы Trimmomatic были удалены нуклеотиды с плохим (ниже Q=28, Q=-10lg(вероятности ошибки)) качеством, а также риды короче 50 нуклеотидов. Поэтому на картинке качества сиквенсов "пропали" риды с длинными усами, а коэффициент эксцесса пика распределения качества ридов увеличится, он станет более острым. В результате файл стал содержать 10191 последовательностей. Однако в обоих ридах стоит флажок "failure" по критерию содержания GC на последовательность (ссылки на результаты в виде html страниц смотри в таблице). Этот флажок загорается, если имеются отклонения от нормального распределения содержания GC-пар в более чем 30% ридов. В распределениях, полученных на основе данных моих файлов (ссылка в таблице), имеется сдвиг влево, что является индикатором автоматической ошибки, не зависящей от позиции основания. Кроме того на левой половине пика имеется много остроконечных локальных максимумов, которые служат индикатором проблем с библиотекой. Обычно это обозначает наличие специфического загрязнения, например димеры адаптеров. Но в наших файлах адаптеры уже должны были быть удалены (это видно в поле Adapter Content), поэтому сложно говорить о причинах таких сдвигов. Другое поле, содержащее предупредительные сигналы - распределение длины сиквенсов. В моих файлах пости все последовательности превышают в длину 97 нуклеотидов, однако некоторые содержат меньшую длину. В описании программы указано, что индикаторы из этого раздела можно игнорировать, так как для некоторых секвенаторов наличие ридов неодинаковой длины является нормой. По остальным критериям и изначалный и конечный файл удовлетворяют параметрам качества.
Другими интересными полями выдачи являются проверка распределения нуклеотидов по сиквенсам. В норме все 4 линии должны быть параллельны друг другу и разница в содержании между А и Т и между G и С не должна превышать 10 процентов (правило Чаргоффа). Еще есть поле, описывающее содержание N-неопознанного нуклеотида в ридах. Оно показывает качество секвенирования, насколько прибор смог различить последовательность нуклеотидов. Другим немаловажным показателям качеста секвенирвоания является количество дуплицированных сиквенсов. Маленький уровень дупликация является индикатором высокого уровня покрытия таргетной последовательности, а высокий - ошибки в проведении ПЦР (что почему-то каких-то последовательностей сильно больше, чем других).

Картирование чтений и анализ выравнивания

Используемые команды и программы указаны в таблице 1. Очищенный файл содержал 10191 ридов, из них с помощью программы Hisat2 все были непарными, 10140 (99.50%) выровнены ровно 1 раз, 4 (0.04%) выровнены больше 1 раза и 47 (0.46%) вообще не удалось картировать на хромосому.
С помощью команды samtools depth chr2sorted.bam >depth.tsv я получила табличку с информацией о том, сколько раз был покрыт каждый нуклеотид. C помощью программы excel я отсортировала данные, выбрала нуклеотид, который покрыт много раз (234204021). Ссылка на табличку. Затем с помощью программы genome brouser я определила положение этого нуклеотида на хромосоме. Он попал на ген ATG16L1 . Файл, содержащий экзоны этого гена (в том числе 3' и 5 ' нетранслируемые экзоны доступен по ссылке в формтае .fasta. Для примера был взят экзон chr2:234202903-234202996. еще раз была запущена комнада samtools depth chr2sorted.bam -r chr2:234202903-234202996 >depth2.tsv. Среднее число покрытий 10,21, медиана -11,мода -9 (расчеты в том же файле excel). Также была построена гистограмма распределения глубины покрытия нуклеотида от координаты генома (см рисунок 1). Я думаю, можно утверждать, что покрытие данного экзона довольно равномерное.
Рисунок 1. Распределение глубины покрытия нуклеотидов для экзона chr2:234202903-234202996

Дальше мне стало интересен общий профиль покрытия всей хромосомы. Среднее покрытие составляло 26,7, мода -1, медиана -9. То есть половина нуклеотидов генома покрыта меньше 9 раз. Если взглянуть на гистограмму распределния покрытий по хромосоме видно, что на протяжении всего геноа чередуются участки с высоким и с низким покрытием (см. рисунок 2).

Рисунок 2. Распределение глубины покрытия нуклеотидов для 2 хромосомы
На рисунке 3ниже представлена визуализация участка гена ATG16L1 (chr2:234,180,994-234,183,542). Видно, что бОльшая часть ридов лежит в окрестностях экзонов.
Рисунок 3. Распределение ридов относительно экзонов гена ATG16L1

Анализ SNP

Необходимый команды описаны в таблице 1. Описание полиморфизмов содержится в таблице 2.
Таблица 2. Описание полиморфизмов
КоординатаТип полиморфизмаРеференсЧтениеГлубина покрытияКачество чтения
сhr2:55516588ЗаменаGC23184,999
сhr2:55523309ЗаменаCA, G36211,003
сhr2:238454154ЗаменаCA101225,009
На рисунке 3 представлена визуализация полиморфизмов с помощью IGV. На рисунке B) видно, что программа позволяет визуализировать инсерции в 1-2 нуклеотида (фиолетовые поля), разночтения между ридами, представляет, как легли покрытия на референс.
Рисунок 4. Визуализация полиморфизмов сhr2:55516588 (A), сhr2:55523309 (B) и сhr2:238454154 (C)
Сначала файл VCF был переведен в формат, пригодны для работы Annovar., в нем не оказалось инделей, только 72 полиморфизма. Первым делом был проведен анализ наличия rs у данных полиморфизмов. Команду смотри в таблице. Необходимая информация содержится в файле rs.hg19_snp138_dropped, то есть те SNP, которые есть в базе dpSNP. Оказалось, что rs есть у 62 нуклеотидов.
Затем я проаннотировала эти SNP в refgene, базе данных, основанной на геномной разметке. Команда указана в таблице. В результате на выход мы получаем три файла: refgene.variant_function содержащий информацию о том, в какое место попал SNP (3' и 5' нетранслируемые области, интроны, экзоны обычных генов, экзоны некодирующих РНК, области, близкие к соединениям спалйсинга, upstream - в пределах 1кб до начала транскрипции, downstream-в пределах 1 кб после сайта окончания транскрипции, интергены), refgene.exonic_variant_function(содержит подробную информацию о том, синонимичная ли замена или нет, какая аминокислота на какую поменялась), rs.log(stdout). В экзоны попало 6, в интроны - 57, ncRNA-exonic -1, UTR3-6, UTR5-2. Гены- ATG16L1,MLPH, CCDC88A, MIR6811. Подробнее о SNP, попавших в экзоны смотри в таблице 3.
Таблица 3. SNP в экзонах
Ген КоординатаАК референсАК чтениеНуклеотид референсНуклеотид чтение
ATG16L1сhr2:234183368TAAG
MLPHсhr2:238427194LPTC
MLPHсhr2:238427251GDGA
MLPHсhr2:238443226HRAG
MLPHсhr2:238449007VATC
MLPHсhr2:238449107EE синонимичная заменаAG

Затем SNP были проаннотированы с помощью базы данных Gwas, основанная на полногеномном поиске ассоциаций между генотипическими и фенотипическими признаками. Всего нашлось 4 SNP: 55516323 связан с ростом человека, 234173503 и 234183368 с болезнью Крона, а 238443226 с раком простаты.
Чтобы определить, имеют ли SNP этого пациента какую-либо клиническую аннотацию, был произведен поиск по базе данных Clinvar, содержащую инфрмацию о генотипической вариабильности и ее связи с человеческим здоровьем. Оказалось, что нуклеотид с номером 234183368 (замена A на G) связан с заменой 300-ой АК треонина на аланин, идентификатор в этой базе данных:RCV000001189.2. , и это приводит к предрасположенности к Inflammatory bowel disease ( воспаление кишечника), к которым как раз и относится болезнь Крона. Чаще всего заболевание развивается до 30 лет [1]. Данная мутация случается в гене ATG16L1 - autophagy related 16 like 1( Gene ID: 55054), белок, закодированный в этом гене входит в состав большого комплекса, ответственного за аутофагию - процесс, направляющий компоненты внутриклеточного матрикса на деградацию в лизосомы [2]. На рисунке 5 представлена визуализация этого полиморфизма с помощью IGV.
Рисунок 5. Визуализация полиморфизма сhr2:234183368, связанного с разивитием воспалительных заболеваний кишечника
Ссылка на сводную табличку с полиморфизмами.

Список литературы

[1] https://en.wikipedia.org/wiki/Inflammatory_bowel_disease [2] https://www.ncbi.nlm.nih.gov/gene/55054