Для выполнения данного практикума был выбран код доступа SRR4240356.
Загрузка чтений:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/006/SRR4240356/SRR4240356.fastq.gz
Обьединяем адаптеры из директории /mnt/scratch/NGS/adapters:
cat /mnt/scratch/NGS/adapters/*.fa > adapters.fa
Удаляем остатки адаптеров с помощью программы trimmomatic:
TrimmomaticSE -phred33 SRR4240356.fastq.gz SRR4240356_ost.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7
Выдача программы:
Input Reads: 7511529 Surviving: 7358438 (97.96%) Dropped: 153091 (2.04%) TrimmomaticSE: Completed successfully
В результате работы программы было удалено 2.04% адаптеров.Также новый файл стал весить 777308708, вес изначвльно файла - 793999866.
C правых концов чтений были удалены нуклеотиды с качеством ниже 20, а также были оставлены только те чтения, у которых длина не меньше 32:
TrimmomaticSE -phred33 SRR4240356_trash.fastq.gz SRR4240356_2.fastq.gz TRAILING:20 MINLEN:32
Выдача программы:
Input Reads: 7358438 Surviving: 7053346 (95.85%) Dropped: 305092 (4.15%) TrimmomaticSE: Completed successfully
В результате работы программы было удалено 4.15% адаптеров. Теперь размер файла стал еще меньше - 744045190.
Подготовка k-меров длины k=31 осуществлялась при помощи команды:
velveth velveth 31 -short -fastq.gz SRR4240356_2.fastq.gz
Далее была применена программа для сборки на основе k-меров:
velvetg velveth
Выдача программы:
Final graph has 286 nodes and n50 of 65554, max 111962, total 659837, using 0/7053346 reads
N50 = 65554, Max = 111962.
Были найдены 3 контига с наибольшей длинной и покрытием следующей командой:
less contigs.fa | grep '>'| tr '_' '\t'| sort -k4 -n -r |head -3
Самые длинные контиги это: 8 (длина 111962, покрытие 38.660198), 6 (длина 107488, покрытие 34.174030), 10 (длина 80939, покрытие 37.524174).
Контиги с аномально большим покрытием были найдены помощью команды:
less contigs.fa | grep '>'| tr '_' '\t'| sort -k6 -n|tail -3
Контиги с аномально большим покрытием это: 14 (длина 934 , покрытие 444.608124), 17 (длина 950, покрытие 447.494751), 27 (длина 282, покрытие 458.429077).
Контиги с аномально маленьким покрытием были найдены с помощью команды:
less contigs.fa | grep '>'| tr '_' '\t'| sort -k6 -n |head -3
Контиги с аномально маленькимм покрытием это: 123 (длина 91 , покрытие 2.362637), 74 (длина 31, покрытие 3.064516), 27 (длина 78, покрытие 3.666667).
С помощью программы megablast на сайте NCBI, были сделаны выравнивания каждого из 3 самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253).
Контиг 6 того же типа, что и цепь. Ложится на участок 220869-323043 на хромосоме.
Контиг 8 того же типа, что и цепь. Ложится он соответственно на участок 451729-555905.
Контиг 10 комплементарен цепи. Контиг 10 соответствует участку 126623-195400.