Однонуклеотидные полиморфизмы, индели и сборкаПоиск однонуклеотидных полиморфизмов и инделей Однонуклеотидный полиморфизм - отличия последовательности ДНК размером в один нуклеотид в геноме представителей одного вида или между гомологичными участками гомологичных хромосом. Под инделями подразумеваются делеции (потеря учатка хромосомы) и инсерции (вставка в нуклеотидной последовательности). Поиск однонуклеотидных полиморфизмов и инделей, содержащихся в чтениях, очистка и картирование которых была произведена по время выполнения заданий предыдущих практикумов. Для поиска однонуклеотидных полиморфизмов и инделей использовались программы samtools и bcftools. Напомним, что в конце практикума, посвященного картированию чтений был получен файл в формате .bam, содержащий информацию об откартированных на геном митохондрии и хлоропласта резуховидки чтений. Чтобы сравнить референсные геномы с откартированными чтениями, файл bwa_aln_sorted.bam вместе с файлом, содержащим геномы хлоропласта и митохондрии, был подан на вход программе samtools. Использовалась команда: samtools mpileup -ugf chloropl_mitoch.fasta bwa_aln_sorted.bam > arabid_g_lklh.bcf Опция -g позволяет получить файл в формате .bcf, -u - несжатый вариант .bcf файла, -f говорит о том, что файл с референсной последовательностью представлен в формате fasta. Далее с помощью программы bcftools был получен список инделей и однонуклеотидных полиморфизмов. Использовалась команда: bcftools view -vcg arabid_g_lklh.bcf > arabid_g_lklh.vcf В результате был получен файл arabid_g_lklh.vcf, содержащий список инделей и однонуклеотидных полиморфизмов, содержащихся в наших чтениях. С помощью следующих команд было подсчитано их количество (первая команда для инделей, вторая - для полиморфизмов): grep 'INDEL;' arabid_g_lklh.vcf | wc -l grep 'DP=' arabid_g_lklh.vcf | wc -l Таким образом было выяснено, что анализируемые чтения содержат 291 индель и 677 однонуклеотидных полиморфизмов. Сборка хлоропласта и митохондрии Сборка геномов хлоропласта и митохондрии производилась при помощи пакета velvet. Этот пакет программ производит сборку геномов на основе алгоритма, использующего граф Де Брейна. Пакет состоит из друх программ. Первая - velveth - создаёт на основе чтений (мы использовали чтения, предварительно очищенные (ссылка на соответствующий практикум)) банк из заданного количества k-меров (последовательностей из k нуклеотидов). Вторая - velvetg - производит сборку контигов на основе графа этих k-меров. Оценить качество сборки можно, анализируя полученное значение N50. В общих словах, если суммарная длина всех контигов L, то N50 называется длина такого контига, что все контиги больше него дают в сумме L/2. Чем больше значение N50 тем лучше сборка. При запуcке программ пакета velvet варьировалаль длина k-меров, оптимальное значение N50 (189) было достигнуто при k=31. Создание банка k-меров: velveth velveth_dir_31 31 -fastq Ath_tae_CTTGTA_L003_R2_007_out.fastq Непосредственно сборка: velvetg velveth_dir_31 -cov_cutoff auto После окончания работы программы velvetg на экран выдаётся следующия информация о полученной сборке: Final graph has 315643 nodes and n50 of 189, max 7386, total 33352405, using 0/3872176 reads В результате запуска пакета velvet получена папка velveth_dir_31, содержащая несколько файлов. Из них нам понадобились: файл с последовательностями полученных контигов (contigs.fa) и файл со статистикой (stats.txt). Файл stats.txt содержит некоторую информацию о собранных контигах. В том числе их длину и номер. С помощью информации, содержажейся в этом файле (можно открыть в Excel и отсортировать контиги по длине) определены номера 10-ти самых длинных контигов. Затем их последовательности скопированы из общего файла (contigs.fa) в отдельный файл - best_contigs.fa и с помощью локального blast был произведен поиск этих контигов в геномах митохондрии и хлоропласта (чтобы определить, какому геному принадлежат эти контиги). Локальный blast запускался аналогично тому, как это было сделано в рамках одного из предыдущих практикумов. Выдачу blast можно увидеть здесь. Информацию о десяти самых длинных контигах можно увидеть на таблице 1. Таблица 1. Информация о десяти самых длинных контигах, полученных в результате сборки геномов хлоропласта и митохондрии резуховидки.
© Shvetsova Ekaterina, FBB MSU, 2013 |