В данном практикуме я буду работать с проектом по секвенированию бактерии Buchnera aphidicola str. Tuc7 с кодом доступа: SRR4240356.
Для скачивания архива с чтениями была применена команда: wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/006/SRR4240356/SRR4240356.fastq.gz
Для помещения всех адаптеров в один файл использовали команду: cat /mnt/scratch/NGS/adapters/* > adapt.fa
Для обрезки адаптеров с одноконцевых ридов: TrimmomaticSE -phred33 SRR4240356.fastq.gz SRR4240356_trim1.fastq.gz ILLUMINACLIP:adapt.fa:2:7:7 -trimlog trim1.log
Прошли проверку: 7358438 (97.96%) чтений, а удалено: 153091 (2.04%)
Для удаления с правых концов чтений нуклеотидов с качеством ниже 20 и удаления чтений, длина которых меньше 32 нуклеотидов: TrimmomaticSE -phred33 SRR4240356_trim1.fastq.gz SRR4240356_trim2.fastq.gz TRAILING:20 MINLEN:32 -trimlog trim2.log
Выжили (хихи): 7053346 (95.85%)
Были удалены: 305092 (4.15%)
Изначальный размер архива - 167M, после первого использования Trimmomatic - 164M, после второго - 155M.
Подготовка k-меров длины k=31: velveth velv 31 -short -fastq.gz SRR4240356_trim2.fastq.gz
Программа для сборки на основе k-меров: velvetg velv
N50 = 65554
В директории velv запустили команду для сортировки чтений, результаты в таблице: sort -r -n -k 2 stats.txt | less
Минимальные и максимальные покрытия нашли с помощью: cut -f6 stats.txt | sort -h
Аномально низкие от 1 до 2 встречается 25 раз. Есть и удивительно большие: 458.429078, 1134.000000, 266951.000000.
Номер контига
Длина контига
Покрытие
8
111962
38.660197
6
107488
34.174029
10
80939
37.524173
2. Анализ сборки
В качестве последовательности для выравнивания я выбрала NC_011834. Результаты работы blastn для 8, 6 и 10 контигов представлены в таблице ниже: