Учебный сайт Якушева Александра


Сборка генома de novo

Работа с набором ридов SRR4240359

Таблица 1. Использованные команды.
gunzip SRR4240359.fastq.gz Распаковка архива
seqret /P/y18/term3/block3/adapters/'*'.fa adapters.fasta Файл adapters.fasta с последовательностями адаптеров для Illumin'ы
fastqc SRR4240359.fastq Файл SRR4240359_fastqc.html с анализом качества прочтений до использования trimmomatic
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240359.fastq trimmed.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Файл trimmed.fastq без последовательностей адаптеров
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 trimmed.fastq trimmed2.fastq TRAILING:20 MINLEN:32 Файл trimmed2.fastq с последовательностями, чья длина больше 32 нуклеотидов (с адаптерами длина чтений, в среднем, была около 50, чтения короткие) и качеством не ниже 20
fastqc trimmed2.fastq Файл trimmed2_fastqc.html с анализом качества прочтений после использования trimmomatic
velveth assembly 31 -fastq -short trimmed2.fastq Файлы Roadmaps и Sequences в папке assembly (k-меры)
velvetg assembly/ Файлы Graph, LastGraph, PreGraph, contigs.fa, stats.txt (граф де Брёйна и сборка контигов)

Оценка качества чтений и очистка мусора

Исходно было получено 13557938 чтений. Качество чтений до очистки отображено на Рис. 1. С помощью первого запуска Trimmomatic с конца каждого чтения были удалены адаптеры. После очистки осталось 13502065 ридов. То есть 55873 рида являлись, предположительно, адапторами. Затем были удалены буквы с низким качеством с концов чтений и оставлены чтения длиной не менее 32. В итоге осталось 12184071 чтение и было отброшено еще 1317994 или 9,76% от общего числа. До триммирования размер fastq-файла с чтениями составлял 1375 Mb, а после 1223 Mb . Качество получившихся чтений представлено на Рис. 2.

Per base quality graph
Рисунок 1. Качество чтений до тримминга
Per base quality graph
Рисунок 2. Качество чтений после тримминга

Изменения после тримминга значительные

Сборка

N50 сборки равен 70607. Некоторые данные о 3 самых длинных контигов приведены в Таблице 2.

Таблица 2. Информация о 3 самых длинных контигах
ID/th> Длина контига Покрытие контига
11 125674 44.550949
1 108447 42.009184
13 71403 39.411551

BLAST контигов

С помощью BLAST самые длинные контиги были выровнены с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Карты локального сходства приведены ниже:

11
Контиг 11. Coverage: 69% Identity: 82,85% Выравнивание попадает на: 2004-94696 и 611229-627104
1
Контиг 1. Coverage: 58% Identity: 74,95% Выравнивание попадает на: 98408-200246
13
Контиг 13. Coverage: 79% Identity: 80,23% Выравнивание попадает на: 202390-273028/b>

По картам можно сказать, что у данной бактерии имеется несколько полиморфных участков. Крупных геномных мутаций не наблюдается. Одиннадцатый контиг имеет разрыв: в этом нет ничего страшного, просто хромосома у бактерии кольцевая, а контиг собрался как раз в месте разрыва в референсном геноме.