Для получения файла с ридами была использована следующая команда:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240360/SRR4240360.fastq.gz
После этого последовательности адаптеров были скопированы из папки adapters в рабочую папку и объединены в общий файл. Для этого использовались следующие команды:
cat /mnt/scratch/NGS/adapters/* >> all.fasta
Команда для удаления адаптерных последовательностей из ридов:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 SRR4240361.fastq.gz cleaned1.fastq.gz ILLUMINACLIP:all.fasta:2:7:7 2> log.txt
Файл с логом можно посмотреть здесь. Видно, что процедура прошла успешно, удалено 41858 (0.51%) чтения. Следующим шагом было удаление с правого конца чтений нуклеотидов с качеством меньше 20, и последующее удаление чтений с длиной меньше 32 нуклеотидов. Перед этим фаил ридов с удаленными адаптерами был разархивирован командой:
gunzip cleaned1.fastq.gzКоманда, выполняюшая фильтрацию:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 -threads 10 cleaned1.fastq filtered.fastq TRAILING:20 MINLEN:32 2> log2.txt
Файл с логом можно посмотреть здесь.В результате фильтрации было удалено 297300 (3.62%) чтений. Размер файла: до фильтрации - 832 Мб после удаления адаптерных последовательностей - 827 Мб после удаления нуклеотидов с низким качеством и слишком коротких ридов - 796 Мб
Для создания k-меров на основе наших чтений длиной 31 нуклеотид была введена следующая команда:
velveth velveth 31 -fastq -short filtered.fastq.gz
В этой команде -fastq задаёт формат входного файла, -short говорит о том, что короткие чтения. На выходе получили директорию velveth с несколькими файлами в ней.
Была запущена программа velvetg. Команда запуска представлена ниже:
velvetg velveth 2> log3.txt
Лог можно посмотреть здесь. Из него можно получить информацию о N50 - значение этого параметра равно 43070. Также в результате выполнения этой программы появились файлы contigs.fa и stats.txt. В файле contigs.fa представлены сами контиги, в stats.txt - статистика по этим контигам.
Информация о самых больших контигах была получена с помощью команды:
sort -n -r -k 2 stats.txt | head
Ниже представлена информация о трёх самых длинных контигах
ID контига | Длина | Покрытие |
1 | 113474 | 33.525 |
5 | 83603 | 33.646 |
4 | 64155 | 35,85 |
ID контига | E-value | Query Cover | Identity | Total Score | Ссылка на отчёт |
1 | 0.0 | 76% | 81.43% | 51702 | файл |
4 | 0.0 | 70% | 78.38% | 28200 | файл |
5 | 0.0 | 58% | 74.95% | 26995 | файл |
Контиг с ID 1 соответсвует 528794 до 550219 референса, число гэпов 545 (2%)
Контиг с ID 4 соответсвует 2004 дo 11103 референса, число гэпов 256 (2%)
Контиг с ID 5 соответсвует 127825 дo 140555 референса, число гэпов 548 (4%)