Команда Что делает
gunzip SRR4240388.fastq.gz Распаковка архива
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240388.fastq SRR_trimmed_1.fastq ILLUMINACLIP:adapters.fasta:2:7:7 Удаляет адаптеры, ссылаясь на заранее созданный файл adapters.fasta
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR_trimmed_1.fastq SRR_trimmed_2.fastq TRAILING:20 MINLEN:32 Обрезает с конца чтений нуклеотиды с качеством прочтения меньше 20, удаляет чтения длиной меньше 32
velveth velveth 31 -fastq -short SRR_trimmed_2.fastq Подготавливает k-меры длины 31, -short тк короткие одноконцевые чтения
velvetg velveth > velvetg.log Собирает контиги из подготовленных k-меров
fastqc filename.fastq Анализ качества чтений после каждого этапа

В файле adapters.fasta были собраны адаптеры. Из SRR4240388.fastq были удалены остатки адаптеров, затем были удалены нуклеотиды с качеством прочтения ниже 20 и чтения длины меньше 32.

Анализ качества чтений последовательно в файлах SRR4240388.fastq (исходный), SRR_trimmed_1.fastq (после удаления остатков адаптеров) и SRR_trimmed_2.fastq (после удаления слишком коротких чтений и нуклеотидов с низким качеством прочтения).

pr14
pr14
pr14

Информация об этих чтениях:

Файл Ридов Длина ридов
SRR4240388.fastq 10833163 39
SRR_trimmed_1.fastq 10830165 1-39
SRR_trimmed_2.fastq 6675920 32-39

Как видно из таблицы, адептеры составляли небольшой процент, а вот чтения длиной менее 32 нуклеотидов составили 38,35% от общего числа ридов.

N50 = 2458 (Из velvetg velveth > velvetg.log)
В таблице ниже представлена информация о трех самых длинных контигах.

Номер контига Длина Покрытие
9 13950 55.772114
25 10101 38.422531
4 9640 58.131016

Пример двух аномальных контигов (с минимальным и максимальным покрытием). Можно заметить, что таких аномальных контигов довольно много.

Номер контига Длина Покрытие
498 63 2.126984
55 259 879.432434

С помощью megablast были построены выравнивания трех самых длинных контигов с хромосомой Buchnera aphidicola. Ниже представлены точечные диаграммы этих выравниваний.

9 контиг
pr14
25 контиг
pr14
4 контиг
pr14

Информация об этих выравниваниях:

Номер Длина Покрытие Координаты выравненной части контига Identities Гэпы
9 13950 98 536475 - 550219 81% 260 (1%)
25 10101 44 147305 - 151796 81% 63 (1%)
4 9640 98 35124 - 44693 83% 125 (1%)