wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/001/SRR4240361/SRR4240361.fastq.gz
Объединение файлов с адаптерами для Illumina в один файл
cat /mnt/scratch/NGS/adapters/* > adapters.fa
Удаление остатков адаптеров
TrimmomaticSE -phred33 SRR4240361.fastq.gz SRR4240361_trim1.fastq.gz ILLUMINACLIP:adapters.fa:2:7:7 -trimlog trimmomatic1.log
Было удалено 34532 (0.47%) чтений
Затем удаляем с правых концов чтений нуклеотиды с качеством ниже 20, оставляем чтения, у которых длина не меньше 32 нуклеотидов
TrimmomaticSE -phred33 SRR4240361_trim1.fastq.gz SRR4240361_trim2.fastq.gz TRAILING:20 MINLEN:32 -trimlog trimmomatic2.log
Было удалено 403754 (5.58%) чтений
До очистки размер файла был 193М, после первой - 192М, после второй - 178М
Эта программа на основе предоставленного файла подготавливает k-меры длины 31
velveth velv 31 -short -fastq.gz SRR4240361_trim2.fastq.gz
Velvetg осуществляет сборку на основе k-меров
velvetg velv
В результате были получены контиги с N50=25683
С помощью команды sort -r -n -k 2 stats.txt | less найдем три самых больших контига
| Номер контига | Длина | Покрытие |
|---|---|---|
| 6 | 49238 | 26.660851 |
| 2 | 45555 | 26.450466 |
| 34 | 43866 | 23.514977 |
Посмотрим аномальное покрытие с помощью команды cut -f6 stats.txt | sort -h
Можно заметить, что есть аномально маленькое (1) и аномально большое покрытие (212829, 865 и 561)
Три самых больших контига были картированы на хромосому Buchnera aphidicola (GenBank/EMBL AC — CP009253)
6-й контиг картируется на хромосому в 5 участках:
| Участок | Идентичные нуклеотиды, % | Гэпы, % |
|---|---|---|
| 127825 to 140555 | 75% | 4% |
| 153752 to 161738 | 78% | 3% |
| 144368 to 151796 | 78% | 3% |
| 161898 to 166752 | 80% | 2% |
| 166750 to 173180 | 76% | 2% |
По рисунку видно, что просиходили делеции и мутации между гомологичными участками
2-й контиг картируется на хромосому в 9 участках с негомологичными промежутками между ними:
| Участок | Идентичные нуклеотиды, % | Гэпы, % |
|---|---|---|
| 467412 to 474667 | 77% | 2% |
| 462496 to 467421 | 77% | 3% |
| 442877 to 445895 | 80% | 1% |
| 474844 to 480660 | 74% | 4% |
| 449411 to 454069 | 75% | 3% |
| 481997 to 485679 | 77% | 3% |
| 441135 to 442817 | 79% | 1% |
| 480874 to 481545 | 82% | 2% |
| 440755 to 440944 | 89% | 4% |
По рисунку видно, что запись контига переврнута (т.к наклон Dot Plot отрицательный), также произошла делеция
34-й контиг картируется на хромосому в 7 участках с негомологичными промежутками между ними:
| Участок | Идентичные нуклеотиды, % | Гэпы, % |
|---|---|---|
| 266073 to 275551 | 79% | 3% |
| 275566 to 283706 | 76% | 5% |
| 260224 to 263784 | 77% | 2% |
| 288181 to 291560 | 78% | 2% |
| 253223 to 257546 | 73% | 4% |
| 285200 to 286535 | 76% | 2% |
| 283963 to 285070 | 76% | 4% |
По рисунку видно, что просиходили делеции между гомологичными участками