Сборка генома de novo
Код доступа SRR4240361 проекта по секвенированию бактерии Buchnera aphidicola
1. Подготовка чтений программой trimmomatic.
Прежде всего удаляем возможные остатки адаптеров. Для этого используем программу trimmomatic.
1) Создадим свой файл, где объединим все адаптеры вместе (adapters.fasta)
2) Удалим возможные остатки адаптеров
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240361.fastq noadapters.fastq ILLUMINACLIP:adapters.fasta:2:7:7
Input Reads: 7272621 Surviving: 7272621 (100,00%) Dropped: 0 (0,00%)
3) Удалим плохие буквы с концов чтений, оставив только чтения длиной не менее 30 и с качеством выше 20
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 noadapters.fastq noadapters2.fastq TRAILING:20 MINLEN:30
Input Reads: 7272621 Surviving: 6919623 (95,15%) Dropped: 352998 (4,85%)
2. Подготовка k-меров программой velveth
Для подготовки k-меров длины 29 была ипользована программа velveth. Команда:
velveth dir1 29 -short -fastq noadapters2.fastq
-fastq означает, что файл имеет расширение .fastq
29 - длина k-меров (hash_length)
dir1 - директория, содержащая файлы: Log, Roadmaps и Sequences
-short = shortpainted, чтения короткие и не парные
3. Сборка генома программой velvetg
Затем запустили программу velvetg (сборка на основе k-меров)
velvetg dir1
N50 of 72780
(Final graph has 1235 nodes and N50 of 72780, max 113937, total 690944, using 0/6919623 reads)
Информация о самых длинных контигах
ID |
length |
cov |
3 |
113937 |
32.444684 |
5 |
97880 |
36.315008 |
12 |
85024 |
34.686418 |
1 |
72780 |
35.527508 |
4. Анализ
Сравним программой megablast каждый из трёх самых длинных контигов с хромосомой Buchnera aphidicola (GenBank/EMBL AC — CP009253). Алгоритм запущен с параметрами по умолчанию.
К сожалению, контиг 3 оказался слишком объемным, программа вопротивилась и отключалась (я пробовала 15 раз). Поэтому в таблице наверху дабавлен четвертый по длине контиг - замена слишком длинному в задании 4.
ID |
length |
E-value |
% Identity |
Gaps |
Chains |
Chr start |
Chr end |
Read start |
Read end |
5 |
97880 |
0.0 |
75% |
1966 |
Plus/Plus |
83021 |
173180 |
1989 |
93340 |
12 |
85024 |
0.0 |
74% |
1495
|
Plus/Minus |
384182 |
454069 |
7198 |
77702 |
1 |
72780 |
0.0 |
77% |
2022
|
Plus/Minus |
462496 |
531590 |
5 |
70106 |
Комментарии
Всего 12 участков выравнивания. На карте пять сравнительно небольших разрывов и 1 огромный.
Всего 16 участков выравнивания. На карте - 5 средних разрывов, 1 мелкий и 2 крупных
Всего 13 участков выравнивания. На карте - 5 мелких разрывов и 1 крупный
© Grigorjeva Masha