Для выполнения заданий практикума мне были даны чтения с кодом доступа SRR4240378.
Скачивание архива с чтениями в рабочую директорию:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240378/SRR4240378.fastq.gz
Создание файла с адаптерами:
cat /mnt/scratch/NGS/adapters/* > adapters.fa
Удаление адаптеров из чтений (количество чтений до - 4420587, после - 4338744, удалено 81843 (1.85%)):
java -jar /usr/share/java/trimmomatic.jar SE SRR4240378.fastq.gz -threads 10 no_adapter.fastq.gz -trimlog trim_adapter.log ILLUMINACLIP:adapters.fa:2:7:7
Удаление нуклеотидов с качеством ниже 20 с правых концов чтений; удаление чтений с длиной менее 32 (осталось 4154738 чтений, удалено 184006 (4.24%)):
java -jar /usr/share/java/trimmomatic.jar SE -threads 10 no_adapter.fastq.gz trimmed.fastq.gz -trimlog trim_lowqual.log TRAILING:20 MINLEN:32
Исходный размер файла SRR4240378.fastq.gz - 91Mb, после удаления адаптеров - 89Mb и после триммирования - 84Mb.
Разбиение на k-меры (в папке kmers)
velveth kmers 31 -short -fastq.gz trimmed.fastq.gz
velvetg kmers
Показатель N50 = 7028.
Самые длинные контиги: 36746(id 8, покрытие 20.017199), 19371(id 57, покрытие 20.546642) и 16745(id 15, покрытие 20.901762)
Каждый из трех самых длинных контигов был выравнен с хромосомой Buchnera aphidicola(AC — CP009253)
Contig 8
Координаты фрагмента | Identities | Gaps |
480874 - 481545 | 564/686(82%) | 20/686(2,9%) |
481997 - 488106 | 4621/6238(74%) | 308/6238(4,9%) |
493487 - 494864 | 1109/1384(80%) | 13/1384(0,94%) |
495033 - 495148 | 108/120(90%) | 5/120(4,2%) |
496111 - 500325 | 3255/4324(75%) | 154/4324(3,6%) |
500370 - 508806 | 6516/8617(76%) | 351/8617(4,1%) |
510438 - 516539 | 4897/6234(79%) | 187/6234(2,9%) |
Contig 57
Координаты фрагмента | Identities | Gaps |
573092 - 582686 | 7212/9822(73%) | 461/9822(4%) |
584329 - 587055 | 2100/2777(76%) | 108/2777(3%) |
Contig 15
Координаты фрагмента | Identities | Gaps |
144368 - 151796 | 5863/7536(78%) | 243/7536(3%) |
Хуже всего на хромосому картировался контиг 8 - семью участками. Лучше всего картировался контиг 15. Контиг 57 "лег" на хромосому тоже неплохо, хотя на участке 582686-584329 видна довольно крупная делеция.