Сборка генома de novo
Работа с набором ридов SRR4240359
gunzip SRR4240359.fastq.gz | Распаковка архива |
---|---|
seqret /P/y18/term3/block3/adapters/'*'.fa adapters.fasta | Файл adapters.fasta с последовательностями адаптеров для Illumin'ы |
fastqc SRR4240359.fastq | Файл SRR4240359_fastqc.html с анализом качества прочтений до использования trimmomatic |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240359.fastq trimmed.fastq ILLUMINACLIP:adapters.fasta:2:7:7 | Файл trimmed.fastq без последовательностей адаптеров |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 trimmed.fastq trimmed2.fastq TRAILING:20 MINLEN:32 | Файл trimmed2.fastq с последовательностями, чья длина больше 32 нуклеотидов (с адаптерами длина чтений, в среднем, была около 50, чтения короткие) и качеством не ниже 20 |
fastqc trimmed2.fastq | Файл trimmed2_fastqc.html с анализом качества прочтений после использования trimmomatic |
velveth assembly 31 -fastq -short trimmed2.fastq | Файлы Roadmaps и Sequences в папке assembly (k-меры) |
velvetg assembly/ | Файлы Graph, LastGraph, PreGraph, contigs.fa, stats.txt (граф де Брёйна и сборка контигов) |
Оценка качества чтений и очистка мусора
Исходно было получено 13557938 чтений. Качество чтений до очистки отображено на Рис. 1. С помощью первого запуска Trimmomatic с конца каждого чтения были удалены адаптеры. После очистки осталось 13502065 ридов. То есть 55873 рида являлись, предположительно, адапторами. Затем были удалены буквы с низким качеством с концов чтений и оставлены чтения длиной не менее 32. В итоге осталось 12184071 чтение и было отброшено еще 1317994 или 9,76% от общего числа. До триммирования размер fastq-файла с чтениями составлял 1375 Mb, а после 1223 Mb . Качество получившихся чтений представлено на Рис. 2.
Изменения после тримминга значительные
Сборка
N50 сборки равен 70607. Некоторые данные о 3 самых длинных контигов приведены в Таблице 2.
ID/th> | Длина контига | Покрытие контига |
---|---|---|
11 | 125674 | 44.550949 |
1 | 108447 | 42.009184 |
13 | 71403 | 39.411551 |
BLAST контигов
С помощью BLAST самые длинные контиги были выровнены с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Карты локального сходства приведены ниже:
![11](ctg11.png)
![1](ctg1.png)
![13](ctg13.png)
По картам можно сказать, что у данной бактерии имеется несколько полиморфных участков. Крупных геномных мутаций не наблюдается. Одиннадцатый контиг имеет разрыв: в этом нет ничего страшного, просто хромосома у бактерии кольцевая, а контиг собрался как раз в месте разрыва в референсном геноме.