Чтобы триммировать риды из файла SRR4240380.fastq.gz нужно подготовить файл с адаптерами. Файл с адаптерами получен, путем соединения 3 предложенных файлов с помощью bash
cat /mnt/scratch/NGS/adapters/* > adapt.fasta
После этого первая операция триммирования
TrimmomaticSE SRR4240380.fastq.gz seqout ILLUMINACLIP:adapt.fasta:2:7:7
В выдаче программы также содержалось:
Input Reads: 5217318 Surviving: 5119144 (98.12%) Dropped: 98174 (1.88%)
Из чего можем сделать вывод, что 1,88% ридов были остатками адаптеров. Триммируем дальше, обрежем некачественные и уберем короткие риды
TrimmomaticSE seqout seqout2.fastq TRAILING:20 MINLEN:32
Input Reads: 5119144 Surviving: 4865359 (95.04%) Dropped: 253785 (4.96%)
Таким образом, удалено было еще 253785 (4.96%) ридов. Вес исходного файла был 0,503Gb, а у полученного 0.478Gb.
Из ридов получили 31-меры
velveth kdir 31 -short -fastq seqout2.fastq
После чего получили из них контиги
velvetg kdir/
В выдаче содержалось сообщение, откуда узнаем, что N50 = 12042:
Final graph has 401 nodes and n50 of 12042, max 25915, total 660284, using 0/4865359 reads
Получим длины самых больших контигов и их покрыте:
grep '>' kdir/contigs.fa | tr '_' '\t' | cut -f4,6 | sort -nr | head -n 3
25915 27.418676
23850 24.763815
23807 25.725922
Чтобы сравнивать с медианным покрытием надо найти медиану, тогда надо найти общее количество
grep '>' kdir/contigs.fa | wc -l
165
Тогда медианное значение - значение посередине отсортированного списка
kdir/contigs.fa | tr '_' '\t' | cut -f4 | sort -nr | head -n 83 | tail -n 1
22.568171
kdir/contigs.fa | tr '_' '\t' | cut -f4 | sort -nr | head -n 1
130.479660
kdir/contigs.fa | tr '_' '\t' | cut -f4 | sort -nr | tail -n 1
2.419355
Видим, что наибольший отличается в 5,8 раз, а наименьший в 9,3.
Наименьший можно привести полностью, хотя при этом он не самый короткий
>NODE_235_length_62_cov_2.419355
CTATGGTAGATTAATATAATCAATTAATACAAAATCCTAACCTAACCTAACCGTACTAAA
ATCAGATGAATAAACGCAAACGCATACAAAAC
С наибольшем же покрытием не самый длинный
>NODE_56_length_934_cov_130.479660
При выравнивании хромосомы и полученных длинных контигов получили следующие значения координат и качества:
NODE_3_length_25915_cov_27.418676
NODE_3_length_25915_cov_27.418676
NODE_3_length_25915_cov_27.418676