wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240361/SRR4240361.fastq.gz
Объединение файлов с адаптерами для Illumina в один файл
cat /mnt/scratch/NGS/adapters/* > adapters.fa
Удаление остатков адаптеров
TrimmomaticSE -phred33 SRR4240361.fastq.gz SRR4240361_trim1.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7 -trimlog trimmomatic1.log
Было удалено 34532 (0.47%) чтений
Затем удаляем с правых концов чтений нуклеотиды с качеством ниже 20, оставляем чтения, у которых длина не меньше 32 нуклеотидов
TrimmomaticSE -phred33 SRR4240361_trim1.fastq.gz SRR4240361_trim2.fastq.gz TRAILING:20 MINLEN:32 -trimlog trimmomatic2.log
Было удалено 403754 (5.58%) чтений
До очистки размер файла был 193М, после первой - 192М, после второй - 178М
Эта программа на основе предоставленного файла подготавливает k-меры длины 31
velveth velv 31 -short -fastq.gz SRR4240361_trim2.fastq.gz
Velvetg осуществляет сборку на основе k-меров
velvetg velv
В результате были получены контиги с N50=25683
С помощью команды sort -r -n -k 2 stats.txt | less найдем три самых больших контига
Номер контига | Длина | Покрытие |
---|---|---|
6 | 49238 | 26.660851 |
2 | 45555 | 26.450466 |
34 | 43866 | 23.514977 |
Посмотрим аномальное покрытие с помощью команды cut -f6 stats.txt | sort -h
Можно заметить, что есть аномально маленькое (1) и аномально большое покрытие (212829, 865 и 561)
Три самых больших контига были картированы на хромосому Buchnera aphidicola (GenBank/EMBL AC — CP009253)
6-й контиг картируется на хромосому в 5 участках:
Участок | Идентичные нуклеотиды, % | Гэпы, % |
---|---|---|
127825 to 140555 | 75% | 4% |
153752 to 161738 | 78% | 3% |
144368 to 151796 | 78% | 3% |
161898 to 166752 | 80% | 2% |
166750 to 173180 | 76% | 2% |
По рисунку видно, что просиходили делеции и мутации между гомологичными участками
2-й контиг картируется на хромосому в 9 участках с негомологичными промежутками между ними:
Участок | Идентичные нуклеотиды, % | Гэпы, % |
---|---|---|
467412 to 474667 | 77% | 2% |
462496 to 467421 | 77% | 3% |
442877 to 445895 | 80% | 1% |
474844 to 480660 | 74% | 4% |
449411 to 454069 | 75% | 3% |
481997 to 485679 | 77% | 3% |
441135 to 442817 | 79% | 1% |
480874 to 481545 | 82% | 2% |
440755 to 440944 | 89% | 4% |
По рисунку видно, что запись контига переврнута (т.к наклон Dot Plot отрицательный), также произошла делеция
34-й контиг картируется на хромосому в 7 участках с негомологичными промежутками между ними:
Участок | Идентичные нуклеотиды, % | Гэпы, % |
---|---|---|
266073 to 275551 | 79% | 3% |
275566 to 283706 | 76% | 5% |
260224 to 263784 | 77% | 2% |
288181 to 291560 | 78% | 2% |
253223 to 257546 | 73% | 4% |
285200 to 286535 | 76% | 2% |
283963 to 285070 | 76% | 4% |
По рисунку видно, что просиходили делеции между гомологичными участками