|
Подготовка чтений
Для начала я скопировала в дирректорию /nfs/srv/databases/ngs/nknjasewa файлы с ридами (файлы с одноконцевыми чтениями, chr6.fastq) и хромосомой (хромосомы человеческого генома (сборка версии hg19), chr6.fasta). Все выполненные команды приведены в таблице 2. Я сделала контроль качества чтений с помощью программы FastQC. В результате работы программы я получила архив (chr6_fastqc.zip), который содержит отчет о программе в виде html файла. Последовательностей с плохим качеством обнаружено не было. Общее число последовательностей - 10289. Длина послевательностей 33-100. GC состав - 40%. На рис.1 изображение "Per base sequence quality", полученное с помощью FastQC до чистки.
Рис.1 Качество чтений до чистки Затем я сделала очистку чтений с помощью программы Trimmomatic. Так как в чтениях адаптеры уже удалены, я отрезала с конца каждого чтения нуклеотиды с качеством ниже 20, оставила только чтения длиной не меньше 50 нуклеотидов. После этого я снова проверила качество чтений программой FastQC. На рис.2 изображение "Per base sequence quality", полученное с помощью FastQC после чистки. Общее число последовательностей - 10120. Длина послевательностей 50-100. Полученные данные свидетельствуют о том, что качество чтений значительно улучшилось. Были удалены концы с качеством ниже 20 и длина оставшихся чтений не менее 50.
Рис.2 Качество чтений после чистки Картирование чтенийДля начала я отсканировала чтения с помощью программы BWA (руководство). Для этого было необходимо проиндексировать референсную последовательность 6-ой , а затем построить выравнивание прочтений и референса в формате .sam. Для анализа выравнивания я перевела выравнивание чтений с референсом в бинарный формат .bam, используя пакет samtools, команда view. Затем я отсортировала выравнивание чтений с референсом (получившийся после картирования .bam файл) по координате в референсе начала чтения, команда sort. После этого я проиндексировала отсортированный .bam файл командой index. Командой idxstats я узнала, сколько чтений откартировалось на геном. На рис.3 приведена полученная данной командой таблица. Видно, что все 10120 чтений откартировались на референсную последовательность 6-ой хромосомы (10120 - число чтений, картированных на хромосому, 0 - число чтений, не картированных на хромосому), длина последовательности - 171115067.
Рис.3 Результат работы команды idxstats пакета samtools Анализ SNPДля осуществления поиска SNP и инделей потребовалось выполнить следующие действия. Для начала я создала файл с полиморфизмами в формат е .bcf с помощью команды mpileup пакета samtools с опцией -uf. Затем я создала файл со списком отличий между референсом и чтениями в формате .vcf, используя для этого команду call пакета bcftools. Полученный файл: plm.vcf. Количество инделей: 11. Количество SNP (отличий последовательности ДНК размером в один нуклеотид): 83. Больше чем у половины найденных полиморфизмов покрытие очень хорошее (больше 20), примерно у трети найденных полиморфизмов покрытие плохое (от 1 до 2). Качество найденных полиморфизмов соответсвтует покрытию. Таблица 1. Описание трех полиморфизмов
С помощью программы annovar я проаннотировала полученные snp, используя базы данных: refgene, dbsnp, 1000 genomes, GWAS, Clinvar. SNP при аннотации по базе данных RefGene классифицируются по положению, которое они занимают в геноме, то есть попадают ли они в экзоны или интроны генов, в межгенные области, в гены некодирующих РНК или в 3'- и 5'-некодирующие области (UTR3 и UTR5). В моем случае в экзоны попадает 15, в интроны 65, в межгенные области 3 snp. Для выявления SNP, имеющих rs, использовался скрипт annotate_variation.pl. Получено два файла: dropped - snp, имеющие rs, то есть те, которые аннотированы в dbSNP (для таких SNP указываеся их идентификатор (rs) в данной БД) - в моем случае таких snp 77; filtered - snp без rs (неаннотированые в dbSNP) - в моем случае таких snp 6. Описание нуклеотидных и аминокислотных замен представлено на рис. 4.
Рис.4 Нуклеотидные и аминокислотные замены
Таблица 2. Выполненные команды
|
© Князева Анастасия, 2015