У меня были риды с id: SRR4240378
Для начала необходимо убрать адаптеры и для этого я собрал все последовательности адаптеров в один файл и удалил их, используя команду:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240378.fastq.gz SRR4240378_noad.fastq.gz ILLUMINACLIP:ad.fasta:2:7:7.
Далее для триммирования нуклеотидов с качеством ниже 20 и удаления ридов длиной меньше 32 нуклеотидов я применил команду:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240378_noad.fastq.gz SRR4240378_filtered.fastq.gz TRAILING:20 MINLEN:32
После удаления адаптеров и отбора качества из 4420587 ридов осталось 4154738, размер файла уменьшился с 91 до 84 Мб.
Начал с получения k-меров длиной 31 и использовал для этого команду:
velveth velvethsrr 31 -short -fastq SRR4240378_filtered.fastq.gz
После чего собрал контиги, используя:
velvetg velvethsrr
Из полученных файлов (stats.txt и других) можно узнать некоторые характеристики:
Имеются контиги с аномально малым покрытием (от 1 до 5). Они все имеют длину меньшую 70 (например, контиг 285 длиной 19 с покрытие 2,01).
Контиги выравнивались на Buchnera aphidicola (AC — CP009253) с помощью NCBI MegaBlast с Align two or more sequences. Ниже приведена информации о самых длинных выравненных участках (так как контиг выравнивается не единым целым, а кусочно, то ,соответсвенно, имеется несколько участков, выравненных на геном). И самый длинный из таких я рассматривал.
Выровнялся в 7 местах, ниже карта локального сходства и участки выравниваний.
Участок 1 (8431-16876) выровнялся на участок генома 500370-508860, участок 2 (617-6740) выровнялся на координаты генома 510438-516539, участок 3 (29595-35594) на геном 481997 до 488106, участок 4 (17050-21266) на геном с 496111 до 500325, участок 5 (22746-24060) на геном с 493487 до 494864, участок 6 (36068-36747) от 480874 до 481545, участок 7 (22436-22554) на геном от 495033 до 495148.
По DotPlot'у можно заключить, что произошло несколько делеций (прерывание прямой) и шел активный мутационный процесс (по количеству гэпов и идентичности). Вдобавок ко всему, кривая имеет отрицательный наклон, то есть контиг записывался в обратном направлении.
Выровнялся в 3 местах.
Участок 1 (6464-16028) на координаты генома 35124 до 44693, участок 2 (71-3818) на геном с 47158 до 50904, участок 3 (4303-6317) на геном с 44768 до 46776.
По DotPlot'у можно сказать, что произошло пару небольших делеций (примерно 70 и 400) и мутировал этот участок с меньшей скоростью (нежели для приведенного выше). Также отрицательный наклон прямой также говорит об обратной записи контига.
Выровнялся в 2 местах.
Участок 1 (9754-19341) на геном с 573092 до 582686, участок 2 (5348-8066) на геном с 584239 до 587055.
По DotPlot'у можно заключить, что имелась одна делеция размером примерно 1800 п.н. и опять же отрицательный наклон кривой говорит об обратной записи контига.