Сборка de novo

С помощью команды
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240378/SRR4240378.fastq.gz
был скачан архив с чтениями.

Далее нужно удалить остатки адаптеров, для этого использовалась команда
java -jar /usr/share/java/trimmomatic.jar SE SRR4240378.fastq.gz -threads 5 adapters_removed.fastq.gz -trimlog trim1.log ILLUMINACLIP:adapters.fa:2:7:7
Удаленные остатки адаптеров составили 1.85%.

Затем командой java -jar /usr/share/java/trimmomatic.jar SE adapters_removed.fastq.gz -threads 5 result_of_trimming.fastq.gz -trimlog trim2.log TRAILING:20 MINLEN:32 с концов были удалены нуклеотиды с качесвтом ниже 20, а также отобраны чтения длиной не менее 32 нуклеотидов. Таким образом и вырезалось еще 4.24%, в итоге осталось 4154738 очищенных чтений, которые будут использоваться в сборке de novo.


Далее использовалась команда velveth kmers 31 -fastq.gz result_of_trimming.fastq.gz -short для получения k-меров длины k=31.

На основе полученных k-меров была составлена сборка генома с помощью команды velvetg kmers &> velv.log.
В файле velv.log N50 составляет 7028(характеризует качество сборки), 657295 нуклеотидов.

В файле stats.txt были найдены 3 самых длинных контига:
ID8: длина 36746, перекрытие 20.017199
ID15: длина 16745, перекрытие 20.901762
ID57: длина 19371, перекрытие 20.546642

Также встречаются контиги с аномально малым покрытием, например покрытие 1.0 у контига 356 длины 1, или аномально большим: 968.0 у контига 257 длины 1.



С помощью megablast 3 самых длинных контига сравнили с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Ниже представлены выравнивания самых длинных контигов на хромосому Buchnera aphidicola.

Сами выравнивания:
Контиг 8
Контиг 15
Контиг 57


Контиг 8




Этот контиг выровнялся на исходную хромосому 7 кусками, он покрывает следующие участки:
1. 500370 - 508806, Identities: 76%, Gaps: 351 (4%)
2. 510438 - 516539, Identities: 79%, Gaps: 187 (2%)
3. 481997 - 488106, Identities: 74%, Gaps: 308 (4%)
4. 496111 - 500325, Identities: 75%, Gaps: 154 (3%)
5. 493487 - 494864, Identities: 80%, Gaps: 13 (0%)
6. 480874 - 481545, Identities: 82%, Gaps: 20 (2%)
7. 495033 - 495148, Identities: 90%, Gaps: 5 (4%)

Каждый кусок имеет хороший процент идентичности: 74% и больше, гэпов встречается не более 4%. Судя по dot plot, внури этого участка происходили перестройки, произошло несколько делеций.



Контиг 15




Этот контиг выровнялся на исходную хромосому единым куском с высоким процентом идентичности, он покрывает следующие участок: 144368 - 151796, Identities: 78%, Gaps: 243 (3%).



Контиг 57




Этот контиг выровнялся на исходную хромосому 2 участками, покрывает следующие участки:
1. 573092 - 582686, Identities: 73%, Gaps: 461 (4%)
2. 584329 - 587055, Identities: 76%, Gaps: 108 (3%)

Судя по dot plot, произошла крупная делеция