Учебный сайт Софроновой Алины | |||||||||||||||||||||||||||||||||
        В этом практикуме мы используем риды, откартированные на геном хлоропласта и митохондрии резуховидки Arabidopsis thaliana - genome.fasta. Еще в прошлом практикуме мы получила файл в формате .bam, в котором содержится информация об откартированных ридах. Сейчас же нашей задачей будет найти отличия в этих чтениях и референсной последовательности. Отличия могут быть нескольких типов. Однонуклеотидные полиморфизмы - отличия последовательностей в один нуклеотид вследствие точечной мутации, а также инделей - делеции (удаление нуклеотидов) или инсерции (вставка нуклеотидов).
        Сравнение ридов и референсного генома будем проводим, используя программы samtools и bcftools. Для этого нам понадобиться команда:
Команда создает файл в формате .bcf (необходим для работы с программой bcftools). -g, -u - выходные параметры опции mpileup, отвечающие за создание файла в .bcf формате в несжатом виде. -f - входной параметр, указывающий на fasta-формат референсной последовательности. Сам список однонуклеотидных полиморфизмов и инделей получаем при помощи программы bcftools командой: Был получен файл 1.vcf. В нем несколько колонок с информацией о полиморфизмах (поле DP) и инделях (INDEL). Так же там же можно посмотреть какие именно нуклеотиды отличаются, а так же левую координату области несоответствия. Для нашего задания нас будет интересовать только столбик FORMAT. Вытащим нужную информацию командой grep с опцией wc -l - подсчет строк, содержащих нужное слово: grep 'DP=' 1.vcf | wc -l В итоге было найдено 287 полиморфизмов и 672 инделей.         Наконец соберем геном хлоропласта и митохондрии из всех откартированных чтений пакетом velvet. Данная программа основывается на графах де Брёйна (применяется для коротких чтений длиной меньше 150). Пакет velvet состоит из двух программ: velveth для выделения k-меров из чтений ("hashing") и velvetg для сборки по графу k-меров. Поэкспериментируем с параметром hash_length (длина k-мера, то есть собственно число k), чтобы получить максимальное N50. N50 - длина контига, при котором контиги большей длины состовляют ровно половину от общей длины чтений. Наибольшее значение N50, равное 240 достигается при k = 25. velvetg velveth_dir_25 -cov_cutoff auto Получили директорию velveth_dir_25, а в нем три файла. В файле stats.txt содержится информация о контигах. Нам необходимо получить 10 самых длинных - их ID при помощи программы Excel, а сами последовательности были взяты из файла contigs.fa - the_longest.fasta. Принадлежность к митохондрии или хлоропласту определила, используя локальный бласт - blast.fasta. Информация об этих контигах приведена в Таблице 1.
Таблица 1. Информация о 10 самых длинных контигах, полученная при помощи локального бласта.
Вернуться к 3 семестру |
© Алина Софронова, 2014 Дата последнего изменения: 08.12.2014 |