Команда | Что делает |
gunzip SRR4240388.fastq.gz | Распаковка архива |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240388.fastq SRR_trimmed_1.fastq ILLUMINACLIP:adapters.fasta:2:7:7 | Удаляет адаптеры, ссылаясь на заранее созданный файл adapters.fasta |
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR_trimmed_1.fastq SRR_trimmed_2.fastq TRAILING:20 MINLEN:32 | Обрезает с конца чтений нуклеотиды с качеством прочтения меньше 20, удаляет чтения длиной меньше 32 |
velveth velveth 31 -fastq -short SRR_trimmed_2.fastq | Подготавливает k-меры длины 31, -short тк короткие одноконцевые чтения |
velvetg velveth > velvetg.log | Собирает контиги из подготовленных k-меров |
fastqc filename.fastq | Анализ качества чтений после каждого этапа |
В файле adapters.fasta были собраны адаптеры. Из SRR4240388.fastq были удалены остатки адаптеров, затем были удалены нуклеотиды с качеством прочтения ниже 20 и чтения длины меньше 32.
Анализ качества чтений последовательно в файлах SRR4240388.fastq (исходный), SRR_trimmed_1.fastq (после удаления остатков адаптеров) и SRR_trimmed_2.fastq (после удаления слишком коротких чтений и нуклеотидов с низким качеством прочтения).
Информация об этих чтениях:
Файл | Ридов | Длина ридов |
SRR4240388.fastq | 10833163 | 39 |
SRR_trimmed_1.fastq | 10830165 | 1-39 |
SRR_trimmed_2.fastq | 6675920 | 32-39 |
Как видно из таблицы, адептеры составляли небольшой процент, а вот чтения длиной менее 32 нуклеотидов составили 38,35% от общего числа ридов.
N50 = 2458 (Из velvetg velveth > velvetg.log)
В таблице ниже представлена информация о трех самых длинных контигах.
Номер контига | Длина | Покрытие |
9 | 13950 | 55.772114 |
25 | 10101 | 38.422531 |
4 | 9640 | 58.131016 |
Пример двух аномальных контигов (с минимальным и максимальным покрытием). Можно заметить, что таких аномальных контигов довольно много.
Номер контига | Длина | Покрытие |
498 | 63 | 2.126984 |
55 | 259 | 879.432434 |
С помощью megablast были построены выравнивания трех самых длинных контигов с хромосомой Buchnera aphidicola. Ниже представлены точечные диаграммы этих выравниваний.
9 контиг
25 контиг
4 контиг
Информация об этих выравниваниях:
Номер | Длина | Покрытие | Координаты выравненной части контига | Identities | Гэпы |
9 | 13950 | 98 | 536475 - 550219 | 81% | 260 (1%) |
25 | 10101 | 44 | 147305 - 151796 | 81% | 63 (1%) |
4 | 9640 | 98 | 35124 - 44693 | 83% | 125 (1%) |