Чтения были скачаны командой: wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz
Следующей командой адаптеры были собраны в один файл: cat /mnt/scratch/NGS/adapters/* >> adapters.fasta
Командой: java -jar /usr/share/java/trimmomatic.jar SE SRR4240358.fastq.gz trimmed.fastq.gz -trimlog trim.log ILLUMINACLIP:adapters.fasta:2:7:7 были удалены адаптеры. В результате было удалено 1.66% чтений.
После этого необходимо было удалить с правых концов чтений нуклеотиды с качеством ниже 20 и чтения длиной меньше 32: java -jar /usr/share/java/trimmomatic.jar SE trimmed.fastq.gz trimmed2.fastq.gz -trimlog trim_2.log TRAILING:20 MINLEN:32
Это удалило 22.69% чтений, сохранив лишь 77.31%. В итоге исходный файл размером 492Мб стал весить 430Мб.
Для получения k-меров использовалась команда: velveth kmers31 31 -fastq -short trimmed2.fastq.gz &> velveth.log
Сборка контигов была сделана командой: velvetg kmers31 &> velvetg.log. N50 составил 8600.
Самые длинные контиги были выделены командой: sort -n -k 2 -r kmers31/stats.txt | head
Контиги с аномально большим и аномально маленьким покрытием были получены командами: $ sort -n -k 6 -r kmers31/stats.txt | head -n 3 и $ sort -n -k 6 kmers31/stats.txt | head -n 10 соответственно.
Контиг ложится на участок хромосомы с 500370 по 598806, общий вес выравнивания составляет 9397. При проценте идентичности 75.61% процент покрытия составляет 86%. Есть один разрыв. Ссылка на выдачу: тык
Контиг ложится на участок хромосомы с 17962 по 20171, общий вес выравнивания составляет 9481. При проценте идентичности 85.41% процент покрытия составляет 74%. Есть 4 разрыва. Ссылка на выдачу: тык
Контиг ложится на участок хромосомы с 467412 по 474242, общий вес выравнивания составляет 6423. При проценте идентичности 76.76% процент покрытия составляет 71%. Разрывов нет. Ссылка на выдачу: тык