Сборка генома de novo

Подготовка чтений


Команда Действие
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz Получение чтений
cat /mnt/scratch/NGS/adapters/* >> adapters.fasta Сбор адаптеров в один файл
java -jar /usr/share/java/trimmomatic.jar SE SRR4240358.fastq.gz trimmed.fastq.gz -trimlog trim.log ILLUMINACLIP:adapters.fasta:2:7:7 Удалены адаптеры
java -jar /usr/share/java/trimmomatic.jar SE trimmed.fastq.gz trimmed2.fastq.gz -trimlog trim_2.log TRAILING:20 MINLEN:32 Удаление с правых концов чтений нуклеотиды с качеством ниже 20 и чтения длиной меньше 32

N50 составило 70607.

В результате удаления адаптеров было удалено 0.04% чтений. Посте запуска команды trimmomatic было удалено 18.13% чтений.

Размер файла уменьшился с 521MB до 405MB.

K-меры


Команда Действие
velvetg kmery &> velvetg.log Получение k-меров
sort -n -k 2 -r kmery/stats.txt | head Выделение самых длинных контигов(рис.1)
sort -n -k 6 -r kmery/stats.txt | head -n 3 Контиг с аномально большим покрытием(рис.2)
sort -n -k 6 kmery/stats.txt | head -n 10 Контиг с аномально малым покрытием(рис.3)

Рис.1: На даннгом изобрание представленым самые длинные контиги. Соответственно, мы можем сказать, что самые длинные контиги имеют номера 11, с длинной 125674; 1, с длинной 108447; 14, с длинной 71403.

Рис. 1

Рис.2: На данном изображении представлены контиги с аномально большим покрытием.

Рис. 2

Рис.3: На данном изображении представлены контиги с аномально малым покрытием.

Рис. 3

Анализ контигов

Контиг 1

Контиг лежит на участке хромосомы с 33726 до 46466. Общий вес выравнивая составляет 36478(рис 4). Процент покрытия соствляет 10%, процент идентичности 74,96%.(рис.5)Выход. Имеются большие разрывы.

Рис. 4

Рис. 5

Контиг 11

Контиг лежит на участке хромосомы с 50907 до 60472. Общий вес выравнивая составляет 54376(рис 6). Процент покрытия соствляет 14%, процент идентичности 82,85%.(рис.7)Выход. Некоторые непрерывные участки разбиваются на два, так как хромосома кольцевая. Есть несколько вариабельных участков.

Рис. 6

Рис. 7

Контиг 14

Контиг лежит на участке хромосомы с 1 to 6967. Общий вес выравнивая составляет 32459(рис 8).Процент покрытия соствляет 9%, процент идентичности 80,22%.(рис.9)Выход. В геноме присутствует 6 вариабельных участков.

Рис. 8

Рис. 9