На главную

Практикум 14

Часть 1 : Подготовка и очистка чтений

Команда Эффект от выполнения
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240359.fastq SRR4240359_deladap.fastq ILLUMINACLIP:adapters.fa:2:7:7
Перед началом работы из всех файлов с адаптерами в папке /P/y16/term3/block3/adapters создается единый файл с адаптерами adapters.fa. Затем была запущена программа Trimmomatic с шагом ILLUMINACLIP, которая обрезала адаптеры (записанные в файле adapters.fa) с концов чтений. Параметры 2:7:7 соответственно обозначающие максимальное число несовпадений для выравнивания адаптера и кусочка рида, минимальное качество выравнивания между ридом и двумя адаптерами для парноконцевых чтений (чтобы выравнивание было признано верным и кусочки рида были обрезаны как адаптеры), какое минимальное качество выравнивания должно быть между ридом и адаптером, если риды непарные (опять же чтобы обрезать выровнявшиеся кусочки). Файл содержащий последовательности ридов с обрезанными адаптерами - SRR4240359_deladap.fastq Изначально ридов: 13557938 Осталось: 13502066 (99,59%) Было удалено: 55872 (0,41%) (видимо состояли только из адаптеров) Размер файла до удаления адаптеров: 1442035098 Мб, размер файла после удаления адаптеров: 1435577866 Мб
java -jar /nfs/srv/databases/ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240359_deladap.fastq SRR4240359_processed.fastq TRAILING:20 MINLEN:30
Программа принимает на вход образованный на предыдущем этапе файл с последовательностями ридов из которых удалены адаптеры, обрезает с конца чтений нуклеотиды с качеством меньше 20 и убирая риды, длиной меньше 30. Результат сохраняется в файл SRR4240359_processed.fastq Изначально ридов: 13502066 Осталось: 12549389 (92,94%) Было удалено: 952677 (7,06%) Размер файла до чистки по качеству: 1435577866 Мб, размер файлов после чистки по качеству: 1317276262 Мб
velveth ./ 29 -short -fastq  SRR4240359_processed.fastq
Программа принимает на вход очищенные от адаптеров и фильтрованные чтения и создает в текущей директории несколько файлов:Roadmap, Log, Sequences. Суть работы программы заключается в создании хэш таблиц с k-мерами, в моем случае k-меры имеют максимально возможную длину 29=30-1.
 velvetg ./
Программа принимает созданные в текущей директории на предыдущем шаге файлы Roadmap, Log, Sequences и собирает согласно созданном на предыдущем шаге хэш-таблицам риды в контиги. Помимо файла с контигами contigs.fa, создаются другие файлы Graph, PreGraph, LastGraph, описывающие процесс построения контигов при помощи графов а так же файл stats.txt. В дальнейшей работе с контигами учитывались те, которые попали в файл contigs.fa. (так как на них стоит порог по длине, в этот файл судя по help не должны попадать контиги короче удвоенной длины к-мера, однако по факту почему то наименьшие контиги, попавшие в это файл имеют длину неудвоенного к-мера.

Характеристика выравниваний

Контиг #1

Номер выравнивания Координаты в референсе (соответствующие тем, что записаны для контига) Координаты в контиге Длина выравнивания Процент идентичных нуклеотидов Число мисматчей Число гэпов e-value
1 445895-442877 3379-6406 3054 80% 542 61 0.0
2 442817-441135 6536-8197 1694 79% 326 29 0.0
3 440944-440755 8333-8514 190 89% 13 8 1e-58
4 440732-440652 8604-8685 82 98% 1 1 5e-32
5 438139-435267 11310-14233 2954 77% 566 111 0.0
6 435241-431839 14295-17724 3495 75% 710 157 0.0
7 429483-425412 20326-24404 4151 76% 837 151 0.0
8 421327-420477 28514-29367 857 79% 170 9 2e-165
9 417677-413081 32299-36893 4665 80% 817 138 0.0
10 412321-410512 37980-39794 1828 81% 320 31 0.0
11 406218-404050 44042-46210 2177 82% 368 16 0.0
12 403823-398904 46453-51436 5031 80% 868 158 0.0
13 398726-389348 51681-61122 9592 74% 2123 363 0.0
14 386887-385425 63845-65312 1478 79% 288 25 0.0
15 385420-384182 65376-66659 1304 74% 252 85 3e-129
16 375867-374136 75484-77214 1743 82% 290 23 0.0
17 369544-366821 81975-84741 2785 77% 552 79 0.0
18 362954-361926 88647-89672 1038 77% 220 21 3e-159

Изображение почти полного соответствия координат гена аспарагиновой АРСазы и контига, полученное при помощи геномного браузера ncbi

Изображение почти полного соответствия координат гена Gln tRNA и контига №4

Dot Matrix выравнивания контига и референса

Контиг #2

Номер выравнивания Координаты в референсе (соответствующие тем, что записаны для контига) Координаты в контиге Длина выравнивания Процент идентичных нуклеотидов Число мисматчей Число гэпов e-value
1 273055-275551 1-2487 2574 75% 485 164 0.0
2 275566-283706 2546-10767 8396 76% 1596 429 0.0
3 283963-285070 11015-12124 1132 76% 223 46 3e-158
4 285200-286535 12821-14155 1349 76% 297 27 0.0
5 288181-291560 15945-19311 3423 78% 670 99 0.0
6 294227-295755 22733-24259 1534 81% 280 12 0.0
7 295935-303252 24568-31921 7428 77% 1549 184 0.0
8 307878-312179 38755-43066 4370 77% 886 127 0.0
9 312679-315982 43711-47019 3351 77% 678 89 0.0
10 318826-323043 50053-54266 4304 74% 944 176 0.0
11 324747-326950 55586-57792 2240 75% 488 69 0.0
12 327227-330003 58084-60853 2828 76% 571 109 0.0
13 330333-331006 61234-61907 675 83% 115 2 7e-170
14 333222-341508 63898-72248 8459 76% 1773 280 0.0
15 341781-343052 72607-73879 1297 78% 239 49 0.0
16 343228-346547 74025-77364 3391 76% 680 122 0.0
17 348233-349674 78487-79929 1450 78% 297 15 0.0
18 349918-352456 80178-82752 2606 75% 541 98 0.0

Dot Matrix выравнивания контига и референса

Контиг #3

Номер выравнивания Координаты в референсе (соответствующие тем, что записаны для контига) Координаты в контиге Длина выравнивания Процент идентичных нуклеотидов Число мисматчей Число гэпов e-value
1 126623-127815 18868-20061 1199 84% 184 11 0.0
2 127825-140555 20126-32866 13010 75% 2711 548 0.0
3 144368-151796 36505-43904 7536 78% 1434 243 0.0
4 153752-161738 45885-53969 8168 78% 1549 264 0.0
5 161898-166752 54174-59034 4914 80% 891 112 0.0
6 166750-173180 59065-65508 6517 76% 1391 159 0.0
7 181712-185289 74226-77841 3652 76% 764 110 0.0

Dot Matrix выравнивания контига и референса

Что происходит со сборкой при уменьшении длины хэш-слова с 29 до 25?

Распределение числа контигов с определенным покрытием

Что будет, если отбросить половину ридов?

Распределение длин контигов в зависимости от их покрытия


© Кристина Перевощикова, 2018