Практикум 14. Сборка генома de novo.
1. Подготовка чтений программой trimmomatic
Удаляем остатки адаптеров:
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240361.fastq SRR_no_adapters.fastq ILLUMINACLIP:adapters.fasta:2:7:7
Результат:
Input Reads: 7272621 Surviving: 7238064 (99,52%) Dropped: 34557 (0,48%)
Удаляем плохие буквы с концов чтений:
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR_no_adapters.fastq SRR_trimm.fastq LEADING:20 TRAILING:20 MINLEN:30
Результат:
Input Reads: 7238064 Surviving: 6876983 (95,01%) Dropped: 361081 (4,99%)
Исходный файл SRR_no_adapters.fastq весил 764,7 МБ, получившийся весил 722,6 МБ (меньше на 42,1 МБ)
2. Подготовка k-меров
Следующая команда создает директорию kmeri, в которую кладет log и файлы c 29-мерами из исходного файла с нашими короткими ридами (поэтому -short), который был в формате fastq (поэтому -fastq)
velveth kmeri 29 -fastq SRR_trimm.fastq -short
3. Cборка на основе k-меров
velvetg kmeri
Результат:
Final graph has 1173 nodes and n50 of 49972, max 155850, total 690667, using 0/6876983 reads
N50: 49972
самые длинные контиги [длина/покрытие]: ID 3 [155850/33.07], ID 11 [85024/34.7], ID 1 [72780/35.5]. Загадкой остается, в чем прокрамма velvetg измеряет покрытие (столбцы short1_cov и short1_Ocov). Проблема в том, что больше 20 ридов имеет "покрытие" больше 30, что говорит о том, что это явно не проценты. Причем самый длинный рид не имеет самого большого покрытия. В документации найти информацию не удалось.
4. Анализ
ID |
length |
score |
e-value |
identity |
gaps |
координаты выравнивания по хромосоме |
query cover |
dot matrix |
3 |
155850 |
6154 (max score) |
0.0 |
79% |
355 (3%) - для лучшего из выравниваний |
81937-91416 - для лучшего из выравниваний |
18% |
|
11 |
85024 |
3605 (max score) |
0.0 |
74% |
373 (3%) - для лучшего из выравниваний |
62724-72162 - для лучшего из выравниваний |
7% |
|
1 |
72780 |
4047 (max score) |
0.0 |
77% |
206 (2%) - для лучшего из выравниваний |
57822-65135 - для лучшего из выравниваний |
7% |
|
Каждый из трех контигов дал несколько выравниваний с разными участками референсной последовательности, что иллюстрируют представленные графики: соответствие контигов и хромосомы перемежаются разрывами.
Замечательно, что контиги ложатся на неперекрывающиеся участки хромосомы (мы этого и ждали).