Сборка de novo

Описание работы

В начале я скачал свой проект по секенированию бактерии Buchnera aphidicola, и сохранил в свою дерикторию для работы с большими файлами на kodomo.

кратко о бактерии



[1]


После этого я записал все адаптеры в один файл.

cat /P/y15/term3/block4/adapters/*.fa > adapters.fasta

Потом я удалил возможные остатки адаптеров, а так же плохие буквы с концов чтений. Были созданны файлы SRR4240379_out.fastq и SRR4240379_out2.fastq

java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240379.fastq SRR4240379_out.fastq ILLUMINACLIP:adapters.fasta:2:7:7
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240379_out.fastq SRR4240379_out2.fastq TRAILING:20 MINLEN:30

В процессе этого можно проверять качество - результат в архиве или в сравнительной таблице

fastqc SRR4240379.fastq
fastqc SRR4240379_out.fastq
fastqc SRR4240379_out2.fastq

Далее с помощью пакета velveth были изготовленны k-меры длины 29, вывод в директорию Assem.

velveth Assem 29 -short -fastq SRR4240379_out2.fastq

И наконец, с помощью программы velvetg была сделана сборка на основе k-меров. Плюс работы с одним пакетом - можно просто указать программе на новособранную директорию.

velvetg Assem

На выходе получилось множество файлов, важные из них это contigs.fa и stats.txt с контигами и статистикой соответсятвенно.

После этого я прогнал три самых длинных контига через megablast по плазмиде бактерии.

Результаты и обсуждения

Характеристика трех самых длинных контигов:

ID контига Длина Покрытие
5 82103 47.94
2 70497 49.61
6 49941 48.60

Характеристика контиговс аномальным покрытием

ID контига Длина Покрытие
606 1 643980
311 1 1112

Так как длинна контигов с аномальным покрытием равна 1, то не имеет смысла прогонять их через megablast.

Всего было найдено 979 контигов, n50 = 31053 (нижняя граница длины ридов, длиннной которых можно покрыть половину генома (общей длины)), общая длина = 677741.

Результаты по megablast:

ID контига Total score Query cover Identity E-value Ссылка на выравнивание
2 31010 7% 81% 0.0 2
6 21303 6% 75% 0.0 6
5 29541 9% 77% 0.0 5

на главную

© Гавриш Глеб 2016