Учебный сайт Екатерины Швецовой

Однонуклеотидные полиморфизмы, индели и сборка

Поиск однонуклеотидных полиморфизмов и инделей

Однонуклеотидный полиморфизм - отличия последовательности ДНК размером в один нуклеотид в геноме представителей одного вида или между гомологичными участками гомологичных хромосом. Под инделями подразумеваются делеции (потеря учатка хромосомы) и инсерции (вставка в нуклеотидной последовательности).

Поиск однонуклеотидных полиморфизмов и инделей, содержащихся в чтениях, очистка и картирование которых была произведена по время выполнения заданий предыдущих практикумов. Для поиска однонуклеотидных полиморфизмов и инделей использовались программы samtools и bcftools.

Напомним, что в конце практикума, посвященного картированию чтений был получен файл в формате .bam, содержащий информацию об откартированных на геном митохондрии и хлоропласта резуховидки чтений. Чтобы сравнить референсные геномы с откартированными чтениями, файл bwa_aln_sorted.bam вместе с файлом, содержащим геномы хлоропласта и митохондрии, был подан на вход программе samtools. Использовалась команда:

samtools mpileup -ugf chloropl_mitoch.fasta bwa_aln_sorted.bam > arabid_g_lklh.bcf

Опция -g позволяет получить файл в формате .bcf, -u - несжатый вариант .bcf файла, -f говорит о том, что файл с референсной последовательностью представлен в формате fasta. Далее с помощью программы bcftools был получен список инделей и однонуклеотидных полиморфизмов. Использовалась команда:

bcftools view -vcg arabid_g_lklh.bcf > arabid_g_lklh.vcf

В результате был получен файл arabid_g_lklh.vcf, содержащий список инделей и однонуклеотидных полиморфизмов, содержащихся в наших чтениях. С помощью следующих команд было подсчитано их количество (первая команда для инделей, вторая - для полиморфизмов):

grep 'INDEL;' arabid_g_lklh.vcf | wc -l
grep 'DP=' arabid_g_lklh.vcf | wc -l

Таким образом было выяснено, что анализируемые чтения содержат 291 индель и 677 однонуклеотидных полиморфизмов.

Сборка хлоропласта и митохондрии

Сборка геномов хлоропласта и митохондрии производилась при помощи пакета velvet. Этот пакет программ производит сборку геномов на основе алгоритма, использующего граф Де Брейна. Пакет состоит из друх программ. Первая - velveth - создаёт на основе чтений (мы использовали чтения, предварительно очищенные (ссылка на соответствующий практикум)) банк из заданного количества k-меров (последовательностей из k нуклеотидов). Вторая - velvetg - производит сборку контигов на основе графа этих k-меров.

Оценить качество сборки можно, анализируя полученное значение N50. В общих словах, если суммарная длина всех контигов L, то N50 называется длина такого контига, что все контиги больше него дают в сумме L/2. Чем больше значение N50 тем лучше сборка.

При запуcке программ пакета velvet варьировалаль длина k-меров, оптимальное значение N50 (189) было достигнуто при k=31.

Создание банка k-меров:

velveth velveth_dir_31 31 -fastq Ath_tae_CTTGTA_L003_R2_007_out.fastq

Непосредственно сборка:

velvetg velveth_dir_31 -cov_cutoff auto

После окончания работы программы velvetg на экран выдаётся следующия информация о полученной сборке:

Final graph has 315643 nodes and n50 of 189, max 7386, total 33352405, using 0/3872176 reads

В результате запуска пакета velvet получена папка velveth_dir_31, содержащая несколько файлов. Из них нам понадобились: файл с последовательностями полученных контигов (contigs.fa) и файл со статистикой (stats.txt).

Файл stats.txt содержит некоторую информацию о собранных контигах. В том числе их длину и номер. С помощью информации, содержажейся в этом файле (можно открыть в Excel и отсортировать контиги по длине) определены номера 10-ти самых длинных контигов. Затем их последовательности скопированы из общего файла (contigs.fa) в отдельный файл - best_contigs.fa и с помощью локального blast был произведен поиск этих контигов в геномах митохондрии и хлоропласта (чтобы определить, какому геному принадлежат эти контиги). Локальный blast запускался аналогично тому, как это было сделано в рамках одного из предыдущих практикумов.

Выдачу blast можно увидеть здесь.

Информацию о десяти самых длинных контигах можно увидеть на таблице 1.

Таблица 1. Информация о десяти самых длинных контигах, полученных в результате сборки геномов хлоропласта и митохондрии резуховидки.

Номер контига Длина Соответствующий геном
14386 7386 митохондрия
8190 7244 митохондрия
13354 5716 митохондрия
5898 5706 митохондрия
11471 5381 митохондрия
28221 5086 митохондрия
1001 4849 митохондрия
144 4742 митохондрия
25198 4181 митохондрия
15635 4141 митохондрия

© Shvetsova Ekaterina, FBB MSU, 2013
Дата последнего изменения: 07.12.2016