Чтения были скачаны командой: ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240361/SRR4240361.fastq.gz
Следующей командой адаптеры были собраны в один файл: cat /mnt/scratch/NGS/adapters/* >> adapters.fasta
Командой: java -jar /usr/share/java/trimmomatic.jar SE SRR4240361.fastq.gz trimmed.fastq.gz -trimlog trim.log ILLUMINACLIP:adapters.fasta:2:7:7 были удалены адаптеры.
В результате было удалено 0.47% чтений.
После этого необходимо было удалить с правых концов чтений нуклеотиды с качеством ниже 20 и чтения длиной меньше 32:
java -jar /usr/share/java/trimmomatic.jar SE trimmed.fastq.gz trimmed2.fastq.gz -trimlog trim_2.log TRAILING:20 MINLEN:32
Это удалило 5.58% чтений, сохранив лишь 94.42%.
Получение k-меров
Для получения k-меров использовалась команда: velveth kmers31 31 -fastq -short trimmed2.fastq.gz &> velveth.log
Сборка контигов была сделана командой: velvetg kmers31 &> velvetg.log. N50 составил 25683.
Самые длинные контиги были выделены командой: sort -n -k 2 -r kmers31/stats.txt | head
Наиболее длинные контиги обладают следующими длинами и покрытиями:
ID: 6 , длина - 49238 , покрытие - 26.660851
ID: 2 , длина - 45555 , покрытие - 26.450466
ID: 34 , длина - 43866 , покрытие - 23.514977
Контиги с аномально большим и аномально маленьким покрытием были получены командами: $ sort -n -k 6 -r kmers31/stats.txt | head -n 3 и $ sort -n -k 6 kmers31/stats.txt | head -n 10 соответственно.
Контиг с самым большим покрытием: ID: 62 , покрытие - 212829.000000
Контиги с самыми маленькими покрытиями(несколько контигов имеют одинаково малое покрытие):
ID: 462 , покрытие - 1.000000
ID: 471 , покрытие - 1.000000
ID: 472 , покрытие - 1.000000
Анализ контигов
Контиг 1
Контиг ложится на участок хромосомы с 8486 по 16931, общий вес выравнивания составляет 10919. При проценте идентичности 75.6% процент покрытия составляет 3%. Есть два разрыва.
Файл выдачи
Контиг 2
Контиг ложится на участок хромосомы с 10948 по 18297, общий вес выравнивания составляет 17272. При проценте идентичности 77.02% процент покрытия составляет 5%. Есть два разрыва.
Файл выдачи
Контиг 3
Контиг ложится на участок хромосомы с 7381 по 14685, общий вес выравнивания составляет 12365. При проценте идентичности 79.21% процент покрытия составляет 3%.
Файл выдачи