Однонуклеотидные полиморфизмы, индели и сборка

Учебный сайт Софроновой Алины

Поиск однонуклеотидных полиморфизмов и инделей

В этом практикуме мы используем риды, откартированные на геном хлоропласта и митохондрии резуховидки Arabidopsis thaliana - genome.fasta. Еще в прошлом практикуме мы получила файл в формате .bam, в котором содержится информация об откартированных ридах. Сейчас же нашей задачей будет найти отличия в этих чтениях и референсной последовательности. Отличия могут быть нескольких типов. Однонуклеотидные полиморфизмы - отличия последовательностей в один нуклеотид вследствие точечной мутации, а также инделей - делеции (удаление нуклеотидов) или инсерции (вставка нуклеотидов).

Сравнение ридов и референсного генома будем проводим, используя программы samtools и bcftools. Для этого нам понадобиться команда:

samtools mpileup -u -g -f genome.fasta bwa_sort.bam > 1.bcf

Команда создает файл в формате .bcf (необходим для работы с программой bcftools). -g, -u - выходные параметры опции mpileup, отвечающие за создание файла в .bcf формате в несжатом виде. -f - входной параметр, указывающий на fasta-формат референсной последовательности. Сам список однонуклеотидных полиморфизмов и инделей получаем при помощи программы bcftools командой:

bcftools view -vcg 1.bcf > 1.vcf

Был получен файл 1.vcf. В нем несколько колонок с информацией о полиморфизмах (поле DP) и инделях (INDEL). Так же там же можно посмотреть какие именно нуклеотиды отличаются, а так же левую координату области несоответствия. Для нашего задания нас будет интересовать только столбик FORMAT. Вытащим нужную информацию командой grep с опцией wc -l - подсчет строк, содержащих нужное слово:

grep 'INDEL;' 1.vcf | wc -l grep 'DP=' 1.vcf | wc -l

В итоге было найдено 287 полиморфизмов и 672 инделей.

Сборка хлоропласта и митохондрии

Наконец соберем геном хлоропласта и митохондрии из всех откартированных чтений пакетом velvet. Данная программа основывается на графах де Брёйна (применяется для коротких чтений длиной меньше 150). Пакет velvet состоит из двух программ: velveth для выделения k-меров из чтений ("hashing") и velvetg для сборки по графу k-меров. Поэкспериментируем с параметром hash_length (длина k-мера, то есть собственно число k), чтобы получить максимальное N50. N50 - длина контига, при котором контиги большей длины состовляют ровно половину от общей длины чтений. Наибольшее значение N50, равное 240 достигается при k = 25.

velveth velveth_dir_25 25 -fastq Ath_tae_CTTGTA_L003_R2_005_2.fastq
velvetg velveth_dir_25 -cov_cutoff auto

Получили директорию velveth_dir_25, а в нем три файла. В файле stats.txt содержится информация о контигах. Нам необходимо получить 10 самых длинных - их ID при помощи программы Excel, а сами последовательности были взяты из файла contigs.fa - the_longest.fasta. Принадлежность к митохондрии или хлоропласту определила, используя локальный бласт - blast.fasta. Информация об этих контигах приведена в Таблице 1.

Таблица 1. Информация о 10 самых длинных контигах, полученная при помощи локального бласта.

номер контига	длина контига	соответствующий геном
23584	7148	митохондрия
5793	5402	митохондрия
4025	5024	митохондрия
16927	4613	митохондрия
128801	4277	митохондрия
49434	4174	митохондрия
12217	4093	митохондрия
48541	3787	митохондрия
33679	3482	митохондрия
3627	3374	митохондрия

Вернуться к 3 семестру