Сборка de novo генома бактерии Buchnera aphidicola

Cборка генома Buchnera aphidicola, проект SRR4240387

Таблица 1. Использованные команды.
fastqc SRR4240387.fastq Проверка качества чтений
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240387.fastq srr_ad.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Удаление адаптерных последовательностей
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 srr_ad.fastq srr_trimmed2.fastq LEADING:10 TRAILING:25 SLIDINGWINDOW:5:15 Очистка чтений
fastqc srr_trimmed2.fastq Проверка качества после очистки чтений
velveth . 31 -short -fastq srr_trimmed2.fastq Подготовка k-меров длины 31
velvetg . -cov_cutoff auto Сборка последовательностей на основе k-меров

Анализ качества и очистка чтений.

Исходно было получено 15'032'810 чтений. Качество чтений до очистки отображено на Рис. 1.

С помощью Trimmomatic сперва были удалены адаптерные последовательности. 3075 последовательностей ридов оказались остатками адаптеров. Затем с конца каждого чтения были отрезаны нуклеотиды с качеством ниже 20, после чего оставлены только чтения длиной не меньше 32 нуклеотидов. После очистки осталось 3'665'895 ридов. Таким образом, процедуру очистки прошли только 24.4% ридов.
Однако анализ чтений с помощью FastQC после очистки показал, что их качество все еще очень низкое (см. Рис. 2).

Поэтому пришлось ужесточить параметры trimmomatic: LEADING:10 TRAILING:25 SLIDINGWINDOW:5:15 MINLEN:32.
Теперь очистку прошли 552'581 (3.68%) ридов. Размер файла fastq до очистки равен 1.6 GB, после - 57 MB. Качество чтений после очистки отображено на Рис. 2.
Параметр "Per base sequence quality" пришел в порядок, однако множество параметров все еще оставляют желать лучшего. Например, перепредставлена последовательность "AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA", составляя 8.2% от всех последовательностей. Тем не менее, дальнейшее ужесточение параметров FastQC (LEADING:10 TRAILING:25 SLIDINGWINDOW:5:15 MINLEN:32) только увеличивает этот процент, поэтому дело в самих данных, а не в уровне шума. В связи с этим, дальнейшая работа велась с файлом, полученным с параметрами trimmomatic LEADING:10 TRAILING:25 SLIDINGWINDOW:5:15 MINLEN:32.

Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 1. Фрагмент выдачи FastQC до очистки.
Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 2. Фрагмент выдачи FastQC после очистки с параметрами TRAILING:20 MINLEN:32.
Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 3. Фрагмент выдачи FastQC после очистки с параметрами LEADING:10 TRAILING:25 SLIDINGWINDOW:5:15 MINLEN:32.

Сборка и анализ.

N50=98. Данные по трем самым длинным контигам доступны в Таблице 2.

Кроме того, обнаружены 3 контига с аномально высоким покрытием, их длины и покрытие доступны в Таблице 3. В связи с тем, что их длина меньше 31, velvetg не включила их в итоговый fasta-файл с контигами. Если отбросить эти 3 контига, среднее покрытие равно 5.2. Контигов с аномально низким покрытием не обнаружено (есть множество контигов с покрытием немного большим 3).

Таблица 2. Длина и покрытие трех самых длинных контигов.
 ID   Длина   Покрытие 
 Контиг 1  26 1198 36.73
 Контиг 2  194 934 47.11
 Контиг 3  22 883 41.08

Таблица 3. Длина и покрытие трех контигов с аномально высоким покрытием.
 ID   Длина   Покрытие 
 Контиг 1  1301 1 434583
 Контиг 2  1304 1 5206
 Контиг 3  1302 11 441.5

Ни для одного из трех самых длинных контигов megablast не выдал никакого выравнивания с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
Однако megablast по базе Nucleotide collection (nr/nt) для всех трех контигов построил выравнивание с плазмидой pTrp данной бактерии. Этот любопытный результат говорит о том, что в данном эксперименте больше всего амплифицировалась эта плазмида, а не какой-либо участок бактериальной хромосомы.
А именно, все три контига ложатся на разные участки последовательности генов большой (trpE) и малой (trpG) субъединиц антранилат-синтетазы.

Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 4. Фрагмент выдачи megablast для контига 26.
Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 5. Фрагмент выдачи megablast для контига 194.
Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 6. Фрагмент выдачи megablast для контига 22.