Сборка генома de novo

Подготовка чтений программой trimmomatic

После скачиванию fastq файла и и его распаковки мы удаляли остатки адаптеров, используемых для illumina с помощью программы trimmomatic. Команда была следующей:
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240379.fastq readsSRR.fastq ILLUMINACLIP:all.fa:2:7:7

(все адаптеры мы собрали с единый файл all.fasta)
Далее, мы удаляли плохие буквы с концов чтений, оставляя только чтения длины не менее 30 с помощью команды:
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 readsSRR.fastq readsSRRv2.fastq TRAILING:20 MINLEN:30

Velveth и velvetg
Для подготовки k-меров длины 29 была ипользована программа velveth с помощью следующей команды:
velveth SRRreads 29 -fastq readsSRRv2.fastq -short

-fastq означает что наш файл имеет расширение .fastq, а не .fasta. 29 - длина k-меров, SRRreads - папка, которая содержит файлы: Log, Roadmaps и Sequences.
Далее была использована программа velvetg:
velvetg SRRreads

N50:31053
Наиболее длинные контиги имеют длины:
контиг №5 82103(покрытие 47.938394)
контиг №2 70497(покрытие 49.611546)
конти г№6 49941(покрытие 48.604493)
Контиги, отличающиеся по покрытию:
контиг №43: длина:935, покрытие:242.998930
контиг №23: длина:1751, покрытие:234.550543
Анализ
Было проанализировано, как три приведённых выше контига с наибольшей длиной ложатся на хромосому Buchnera aphidicola
Contig IDLengthE-value% IdentityGapsChainsChr startChr end Read startRead end
2704970.081%1415(общее число)+/+528977594099 167134Несколько выравниваний, расшифровано в комментариях к таблице
5821030.077%2032+/+451729529004 238882131
6499410.075%1320+/+127825173180 5345435

Комментарии к таблице: Контиг 2:

8 участков выравнивания. 3 заметных разрыва.
Котинг5:

Всего получилось 14 участка выравнивания. Видно 2 больших разрыва и ещё 4 разрыва поменьше.
Контиг 6:

Всего получилось 5 участков выравнивания. Видно 2 больших разрыва.


©Кондратенко Наталья, 2017