Сборка de novoОписание работыВ начале я скачал свой проект по секенированию бактерии Buchnera aphidicola, и сохранил в свою дерикторию для работы с большими файлами на kodomo. кратко о бактерии![]()
После этого я записал все адаптеры в один файл. cat /P/y15/term3/block4/adapters/*.fa > adapters.fasta Потом я удалил возможные остатки адаптеров, а так же плохие буквы с концов чтений. Были созданны файлы SRR4240379_out.fastq и SRR4240379_out2.fastq java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240379.fastq SRR4240379_out.fastq ILLUMINACLIP:adapters.fasta:2:7:7 java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240379_out.fastq SRR4240379_out2.fastq TRAILING:20 MINLEN:30 В процессе этого можно проверять качество - результат в архиве или в сравнительной таблице fastqc SRR4240379.fastq fastqc SRR4240379_out.fastq fastqc SRR4240379_out2.fastq Далее с помощью пакета velveth были изготовленны k-меры длины 29, вывод в директорию Assem. velveth Assem 29 -short -fastq SRR4240379_out2.fastq И наконец, с помощью программы velvetg была сделана сборка на основе k-меров. Плюс работы с одним пакетом - можно просто указать программе на новособранную директорию. velvetg Assem На выходе получилось множество файлов, важные из них это contigs.fa и stats.txt с контигами и статистикой соответсятвенно. После этого я прогнал три самых длинных контига через megablast по плазмиде бактерии. Результаты и обсужденияХарактеристика трех самых длинных контигов:
Характеристика контиговс аномальным покрытием
Так как длинна контигов с аномальным покрытием равна 1, то не имеет смысла прогонять их через megablast. Всего было найдено 979 контигов, n50 = 31053 (нижняя граница длины ридов, длиннной которых можно покрыть половину генома (общей длины)), общая длина = 677741. Результаты по megablast: ![]()
|