Для выполнения данного задания нам сначала нужно: найти и скачать архив с чтениями в рабочую директорию, подготовить чтения с помощью программы trimmomatic, сформировать k-меры и, наконец, осуществить сборку.
SRR4240358 - мой код доступа проекта по секвенированию бактерии Buchnera aphidicola str. Tuc7.
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz
cat /mnt/scratch/NGS/adapters/* > ad.fa
(Он нам понадобится для дальнейшего вырезания адаптеров)
TrimmomaticSE -phred33 SRR4240358.fastq.gz 1stage.fastq.gz ILLUMINACLIP:ad.fa:2:7:7 -threads 15 -trimlog trimmomatic.log
Результатом стало удаление (отбрасывание) 174955 (1.66%) чтений.
TrimmomaticSE -phred33 1stage.fastq.gz 2stage.fastq.gz TRAILING:20 MINLEN:32 -threads 15 -trimlog trimmomatic.log
Результатом стало удаление (отбрасывание) 2352447 (22.69%) чтений.
(Длина не менее 30 нуклеотидов => k-меры должны быть длины 31.)
velveth km 31 -short -fastq.gz 2stage.fastq.gz
velvetg km
N50=8600 (см файл Log)
Самый длинный контиг:
Id=56
Длина 19821
Покрытие 29,475%
Второй самый длинный контиг:
Id=34
Длина 18714
Покрытие 29,923%
Третий самый длинный контиг:
Id=40
Длина 16436
Покрытие 30,793%
Есть довольно много контингов с аномально большим покрытием:
№18 - с покрытием 412,1
№41 - с покрытием 266,5
№49 - с покрытием 281,5
№136 - с покрытием 111578,0
У большинства из них маленькая длина №18 - 60, №136 - 1, но и тут есть исключения №41 - 949, №49 - 622.
Контингов с аномально большим покрытием много, поэтому для примера я выбрала только эти 4.
Построенные карты локального выравнивания 3 самых длинных контигов с хромосомой Buchnera aphidicola:
Карта локального выравнивания 1ого контига(Id=56)
Карта локального выравнивания 2ого контига(Id=34)
Карта локального выравнивания 3его контига(Id=40)