Для даного практикума была создана директория /mnt/scratch/NGS/zzzem1103/pr14
Код доступа проекта по секвенированию - SRR4240379.
Архив с чтениями был скачен с помощью следущей команды:
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/009/SRR4240379/SRR4240379.fastq.gz
Сначала нобходимо было удалить остатки адаптеров.
Для этого был создан единый файл в рабочей директории с вариантами адаптеров Illumina с помощью команды:
cat NexteraPE-PE.fa TruSeq2-PE.fa TruSeq2-SE.fa TruSeq3-PE-2.fa TruSeq3-PE.fa TruSeq3-SE.fa>/mnt/scratch/NGS/zzzem1103/pr14/adapters.fasta
Для удаления адаптеров использовалась команда:
TrimmomaticSE -phred33 SRR4240379.fastq.gz trimm.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7
Итог: Input Reads: 7400155 Surviving: 7269852 (98.24%) Dropped: 130303 (1.76%)
1.76% последовательностей чтений оказались адаптерами
Затем с помощью следующей команды были удалены с правых концов чтений нуклеотиды качеством ниже 20 чтения с длиной менее 32.
TrimmomaticSE -phred33 trimm.fastq.gz trimm2.fastq.gz TRAILING:20 MINLEN:32
Удалено 4.07%
До очистки размер файла 167M, после 156M
Подготовка k-меров длины 31 была выполнена с помощью команды:
velveth k31 31 -short -fastq.gz trimm2.fastq.gz
Затем была запущена прогарамма velvetg для осуществления сборки de-novo на основе k(31)-меров:
velvetg k31
В директрии k31 находились 8 файлов contigs.fa; Graph; LastGraph; Log; PreGraph; Roadmaps; Sequences; stats.txt
N50 = 25646
Длины и покрытия трех самых длинных контигов были найдены с помощью конвейера:
grep '^>' contigs.fa | tr '_' '\t' | cut -f 4,6 | sort -nrk 1 | head -n3 | less
3 самых длинных контига и их покрытия:
1) 49 912 bp, 35.907237
2) 49 262 bp, 34.772177
3) 33 085 bp, 36.259030
Были найдены 2 контига с аномально большим показателем покрытия с 1 bp и покрытием 474299.000000; 1 bp и покртытием 2694.000000 ID контига регион выравнивания процент идентичности
3 самых больших контига были сравнены с хромосомой Buchnera aphidicola (AC — CP009253) с помощью программы megablast.
Выравнивание с контигом, длины 49 912 дало следующие результаты
Номер находки | Координаты на хромосоме | Идентичность | Гэпы | |
---|---|---|---|---|
1 | 127825-140555 | 74.885 | 426/13008 | |
2 | 153752-161738 | 77.696% | 191/8169 | |
3 | 144368-151796 | 77.800% | 178/7536 | |
4 | 161898-166752 | 79.601% | 89/4912 | |
5 | 166750-173180 | 76.185% | 138/6517 |
С контигом длины 49 262 нашлось следующее:
Номер находки | Координаты на хромосоме | Идентичность | Гэпы | |
---|---|---|---|---|
1 | 500370-508806 | 75.618% | 265/8617 | |
2 | 510438-516539 | 78.553% | 140/6234 | |
3 | 523105-528679 | 76.851% | 159/5685 | |
4 | 481997-488106 | 74.078% | 241/6238 | |
5 | 517766-521500 | 77.240% | 81/3783 | |
6 | 496111-500325 | 75.278% | 121/4324 | |
7 | 493487-494864 | 80.130% | 13/1384 | |
8 | 480874-481545 | 82.216% | 18/686 | |
9 | 528794-529211 | 84.000% | 20/425 | |
10 | 495033-495148 | 90.000% | 4/90 |
С контигом длины 33 085 был получен следующий результат
Номер находки | Координаты на хромосоме | Идентичность | Гэпы |
---|---|---|---|
1 | 467412-474667 | 77.030% | 170/7388 |
2 | 462496-467421 | 76.989 | 135/5015 |
3 | 474844-480660 | 74.171 | 200/5974 |
4 | 451729-454069 | 77.089 | 46/2370 |