Ресеквенирование. Поиск полиморфизмов у человека
I. ПОДГОТОВКА ЧТЕНИЙ
В данном практикуме мы работали с чтениями экзома, картирующимися на участок хромосомы человека.
Файл chr9_2.fastq с одноконцевыми чтениями в формате fastq был взят из директории /P/y14/term3/block4/SNP/reads.
Подготовка чтений осуществлялась в несколько этапов:
Анализ качества прочтений
Очистка чтений
Сравнение параметров прочтений до и после очистки
|
АНАЛИЗ КАЧЕСТВА ПРОЧТЕНИЙ |
Анализ прочтений был осуществлен с помощью прогрммы fastQC, установленной на сервере kodomo.
Результатом работы программы является html файл и zip архив, содержащие отчет о качестве прочтений.
Программа была запущена с помощью следующей команды: |
fastqc chr9_2.fastq |
ОЧИСТКА ЧТЕНИЙ |
Очистка чтений проводилась с использованием программы Trimmomatic. Были удалены чтения с длиной
менее 50 нуклеотидов и с концов каждого чтения были отрезаны нуклеотиды с качеством ниже 20. Ниже
приведена команда: |
java -jar /usr/share/java/trimmomatic.jar SE -phred33 chr9_2.fastq chr9_2_out.fastq TRAILING:20 MINLEN:50 |
СРАВНЕНИЕ ПАРАМЕТРОВ ЧТЕНИЙ ДО И ПОСЛЕ ЧИСТКИ |
До чистки было 2206 чтений, после чистки стало 2141 чтений.
На рисунке 1 изображен контроль качества чтений до чистки. Синей линия - среднее качество чтений,
центральные красные линии - медиана, желтые прямоугольники - интерквартальный размах.
(разница между верхней и нижней квартилями, диапазон значений качества, при котором качество 25% чтений на данной позиции выше нижней границы,
а 75% - не выше верхней). Поле графика разделено на 3 полосы зеленого, желтого и красного цветов, попадание в которые
вышеперечисленных элементов графика позволяет сделать вывод о качестве чтений.
На рисунке 2 изображен контроль качества чтений до чистки. После чистки все риды
располагаются в зеленой области. С помощью чистки мы получили надежные прочтения. Также после чистки стало меньше ридов, так как
были удалены риды длинной меньше 50.
|
Рис 1. Контроль прочтений до чистки. |
Рис 2. Контроль прочтений после чистки. |
Часть II. Картирование чтений
Чтения были откартированы с помощью программы hisat2. Программа была импортирована с помощью команды:
export PATH=${PATH}:/home/students/y06/anastaisha_w/hisat2-2.0.5
|
Таблица 1. Команды, использованные при картировании последовательности.
Команда | Функция | Выдача |
hisat2-build chr9_2.fasta chr9_2 | Индексирование референсной последовательности |
Индексированный файл chr9_2.fasta |
hisat2 -x chr9_2 -U chr9_2_out.fastq --no-spliced-alignment --no-softclip >align1.sam |
Выравнивание чтений после чистки с референсной последовательностью | Файл, который содержит
выравнивание формата SAM align1.sam |
Программа картирования была запущена с параметрами -x (путь к индексу) -U (путь к чтениям) --no-spliced-alignment
(запрет на картирование с разрывами) --no-softclip (кртирование без подрезания чтений).
Далее необходимо было проанализировать, полученное выравнивание. Для этого я использовала программу
Samtools. Она работает с файлами в формате SAM.
Таблица 2. Команды, использованные для анализа последовательностей в формате sam.
Команда | Функция | Выдача |
samtools view align1.sam -bo align1.bam | Программа переводит файл в формат bam | align1.bam |
samtools sort align1.bam -T sorted.txt -o sorted.bam | Сортировка выравнивания чтений и референса по
координате в референсе | sorted.bam |
samtools index sorted.bam | Индексирование отсортированного выравнивания | sorted.bam |
samtools idxstats sorted.bam > totalread.txt | Запись числа откартировавшихся чтений |
totalread.txt |
Выяснилось, что на хромосому откартировался 2101 рид. 40 ридов не были откартированы вообще.
Часть III: анализ SNP
Таблица 3. Команды, использованные при поиске SNP и инделей.
Команда | Функция | Выдача |
samtools mpileup -uf chr9_2.fasta sort.bam > snp.bcf | Создание файла с полиморфизмами | snp.bcf |
bcftools call -cv snp.bcf -o snp.vcf | Определения различий | snp.vcf |
В результате были найдены 63 snp. Из них были выбраны 3 штуки и описаны в таблице. У 1 высокое качество прочтения и хорошее покрытие.
Таблица 4. Найденные snp и индели.
Координата | Тип полиморфизма | В референсе | В чтениях | Покрытие в этом месте | Качество покрытия |
chr 9:117552885 | замена | T | C | 73 | 221.999 |
chr 9:136130610 | замена | G | A | 3 | 4.13269 |
chr 9:136131592 | замена | G | C | 7 | 36.0081 |
Далее необходимо было аннотировать полученные SNP. Это произвелось с помощью программы ANNOVAR.
Подготовка входных файлов включала удаление инделей из snp.vcf и использование скрипта convert2annovar.pl
(perl /nfs/srv/databases/annovar/convert2annovar.pl -format vcf4 /nfs/srv/databases/ngs/vasidze/snp.vcf >
/nfs/srv/databases/ngs/vasidze/snp.avinput).
Затем была проведена аннотация с помощью команд:
- dbnsp: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.snp -build hg19
-dbtype snp138 snp.avinput /nfs/srv/databases/annovar/humandb/
- 1000genomes: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.1000genomes -buildver
hg19 -dbtype 1000g2014oct_all snp.avinput /nfs/srv/databases/annovar/humandb/
- GWAS: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.gwas -build hg19 -dbtype gwasCatalog
snp.avinput /nfs/srv/databases/annovar/humandb/
- Clinvar: perl /nfs/srv/databases/annovar/annotate_variation.pl -filter -out rs.clinvar -dbtype clinvar_20150629
-buildver hg19 snp.avinput /nfs/srv/databases/annovar/humandb/
- Refgene: perl /nfs/srv/databases/annovar/annotate_variation.pl -out rs.refgene -build hg19 snp.avinput
/nfs/srv/databases/annovar/humandb/
Из всех SNP 56 имеют rs, 7 не имеют.
Для рассмотрения выдачи Clinvar можете проследовать по ссылке: выдача clinvar
Выдача GWAS:
Таблица
Координата | Gwas |
chr 9:117552885 | Crohn's disease |
chr 9:117553249 | Inflammatory bowel disease,Ulcerative colitis |
chr 9:124906723 | Obesity-related traits |
chr 9:136131188 | Coagulation factor levels,Tumor biomarkers |
chr 9:136131322 | mean corpuscular hemoglobin concentration |
chr 9:136131415 | End-stage coagulation |
chr 9:136132754 | Malaria |
chr 9:136132908 | Venous thromboembolism,Malaria |
chr 9:136137065 | Venous thromboembolism,D-dimer levels,Activated partial thromboplastin time |
chr 9:136137106 | Coagulation factor levels |
В БД RefSeq SNP подразделяется на exonic, splicing, ncRNA, UTR5 , UTR3, intronic,
upstream, downstream, intergenic.
В ходе поиска по RefSeq было установлено, что 3 snp относятся к UTR3, 14 к exonic, 43 к intronic
и 2 к downstream.
Помимо этого проводился поиск по базе данных dbsnp. В результате было получено 3 файла .log, .dropped и
.filtered. В последнем содержались 7 snp.
Поиск по базе данныз 1000g также дал нам три файла, аналогичные предидущим. В файле .filtered содержатся 7 snp.
Сводная информация по всем аннотациям в трех банка представлена в файле pr11.xlsx
© Raldugina Vasilisa 2016
|