pr14
С помощью команды
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/008/SRR4240358/SRR4240358.fastq.gz
Далее с помощью команды:
cat /mnt/scratch/NGS/adapters/* > adapters.fasta
Удаление возможных остатков адаптеров:
TrimmomaticSE -phred33 SRR4240358.fastq.gz SRR4240358_trim1.fastq.gz ILLUMINACLIP:adapters.fasta:2:7:7 -trimlog trimmomatic1.log
Удаление с правых концов чтений нуклеотиды с качеством ниже 20, и удаление чтений, длина которых меньше 32 нуклеотидов:
TrimmomaticSE -phred33 SRR4240358_trim1.fastq.gz SRR4240358_trim2.fastq.gz TRAILING:20 MINLEN:32 -trimlog trimmomatic2.log
Запуск программы velveth для коротких и не парных чтений для подготовки k-меров длиной 31:
velveth velv 31 -short -fastq.gz SRR4240358_trim2.fastq.gz
Сборка k-меров с помощью velvetg:
velvetg velv
С помощью конвейера:
grep -e '>' contigs.fa | tr '_' ' ' | sort -k4,4 -t ' ' -n -r | head -n 4 | less
Для анализа аномальных покрытий были использованы команды:
grep -e '>' contigs.fa | tr '_' ' ' | sort -k6,6 -t ' ' -n -r | less
grep -e '>' contigs.fa | tr '_' ' ' | sort -k6,6 -t ' ' -n | less
В результате было найдено 13 аномально больших покрытий, максимальное превышает медиану в 14 раз, минимальное из аномальных практически в 5 раз. При этом длина контигов с аномально большими покрытиями варьируется от 53 до 949.
Контигов с аномально малыми покрытиями также 12. Минимальное - 1,7, максимальное аномальное - 5,75. Длина контигов варьируется от 31 до 115, т.е. вряд ли они могут являться шумом.
Сравнение программой megablast самых длинных контигов с хромосомой Buchnera aphidicola.
Для контига 34 было построено 6 выравниваний:
Таблица 1
Участок | Процент идентичности | Число гэпов | Вес выравнивания |
---|---|---|---|
9387-11586 | 1896/2220 (85%) | 30/2220 (1%) | 2278 |
15025-18744 | 2935/3781 (78%) | 144/3781 (3%) | 2163 |
6139-9309 | 2453/3228 (76%) | 92/3228 (2%) | 1583 |
1-2495 | 1982/2530 (78%) | 60/2530 (2%) | 1581 |
12176-14000 | 1508/1850 (82%) | 49/1850 (2%) | 1476 |
5505-5979 | 392/478 (82%) | 9/478 (1%) | 398 |
Из DotPlotа видно крупные делеции, и что контиг "ложится" на начало хромосомы.
Для континга 40 было построено 2 выравнивания:
Таблица 2
Участок | Процент идентичности | Число гэпов | Вес выравнивания |
---|---|---|---|
3-6889 | 5344/6962 (77%) | 206/6962 (2%) | 3703 |
6916-11860 | 3864/5019 (77%) | 164/5019(3%) | 2719 |
Для контига 54 было построено 3 выравнивания:
Таблица 3
Участок | Процент идентичности | Число гэпов | Вес выравнивания |
---|---|---|---|
5342-13787 | 6513/8614 (76%) | 345/8614 (4%) | 3949 |
15478-18851 | 3580/4396 (81%) | 83/4396 (1%) | 3520 |
948-5226 | 3257/4325 (75%) | 156/4325 (3%) | 1927 |
Контиг ложится ближе к концу хромосомы, чем 40 контиг. Видна 1 делеция.