<< Назад к странице 3 семестра
Практикум 14
I. Подготовка чтений
1) Удаление адаптеров.
Все адаптеры были собраны в один файл командой: cat *.fa >> adapters.fasta. Команда, использованная для удаления адаптеров:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240361.fastq noadapter.fastq ILLUMINACLIP:adapters.fasta:2:7:7
Выдача:
Input Reads: 7272621 Surviving: 7238064 (99,52%) Dropped: 34557 (0,48%)
Это значит, что 34557 ридов состояли только из адаптеров и были удалены.
2) Удаление плохих нуклеотидов
Плохие - нуклеотиды с качеством ниже 20. Использованная команда:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 noadapter.fastq cleared.fastq TRAILING:20
Выдача:
Input Reads: 7238064 Surviving: 7153776 (98,84%) Dropped: 84288 (1,16%)
3) Удаление ридов размера меньше 30
Использованная команда:
java -jar /usr/share/java/trimmomatic.jar SE -phred33 cleared.fastq trimmed.fastq MINLEN:30
Выдача:
Input Reads: 7153776 Surviving: 6881690 (96,20%) Dropped: 272086 (3,80%)
Таким образом, из 7272621 ридов осталось только 6881690.
II. Velveth
1) Получение к-меров
Был запущен velveth с командой:
velveth kmers 29 -short -fastq trimmed.fastq
где kmers - название директории, куда был помещен файл с полученными к-мерами; -short - параметр, означающий, что чтения (риды) короткие и непарные;
-fastq - формат входного файла, параметр, который, хотя и является опциональным, должен быть введен обязательно, иначе velveth выдает ошибку вида:
velveth: trimmed.fastq does not seem to be in FastA format,
т.к. по умолчанию использует формат fasta; trimmed.fastq - файл с ридами, поданный на вход программе.
В созданной папке kmers содержатся 3 файла: Log, содержащий некоторую информацию о параметрах выполнения команды, Roadmaps и Sequences, содержащий полученные к-меры.
III. Velvetg
1) Сборка генома
ВАЖНО: velvetg не имеет опции -help. Чтобы понять, как он работает, нужно запустить его без параметров.
Программа velvetg была запущена c командой:
где assembly - название рабочей директории. На момент запуска в ней находились файлы:
trimmed.fastq, содержащий риды, а также файлы Log Roadmaps Sequences, полученные в результате работы программы velveth.
По завершении работы программа выдала сообщение:
Final graph has 1209 nodes and n50 of 49972, max 155850, total 690701, using 0/6881690 reads
Было получено 3 файла: contigs.fa, содержащий контиги в fasta-формате, stats.txt, содержащий описание всех полученных контигов, и LastGraph, содержащий
описание графа, созданного velvet.
Из сообщения видно, что было получено 1209 контигов. По умолчанию программа не записывает в файл contigs.fa контиги
с длиной меньше, чем 2k, где k - длина слова, использованная в работе прогаммы velveth. В нашем случае были удалены контиги длины меньше, чем 58, хотя их
описание можо найти в файле stats.txt (так, просмотрев этот файл, обнаружил, что, начиная примерно с 30-ого номера, встречается очень много контигов двузначной
длины, а ближе к концу файла - и вовсе однозначной).
N50 полученной сборки - 49972.
Самые длинные контиги:
1. NODE_3 с длиной 155850 и средним покрытием 33.079514;
2. NODE_11 с длиной 85024 и средним покрытием 34.670528;
3. NODE_1 с длиной 72780 и средним покрытием 35.516788
IV. Megablast
1) NODE_3
Рис. 1. Изображение карты локального сходства хромосомы бактерии Buchnera aphidicola и контига node_3.
Таблица 1. Некоторые характеристики выравнивания хромосомы бактерии Buchnera aphidicola и контига node_3. |
Количество выравниваний |
Identity (общее) |
Кол-во гэпов (общее) |
32 |
79% |
3 889 |
Как можно видеть из карты локального сходства, в целом, данный контиг ложится на хромосому хорошо, за исключением некоторых участков, которые
будут рассмотрены подробнее ниже. Координаты участков хромосомы, соответствующих контигу:
№ Коорд. контига Коорд. хромосомы № Коорд. контига Коорд. хромосомы
1. 37-843 353822-353014 17. 72300-73409 285070-283963
2. 1672-4246 352456-349918 18. 73657-81878 283706-275566
3. 4495-5937 349674-348233 19. 81937-91416 275551-266073
4. 7060-10399 346547-343228 20. 93966-97537 263784-260224
5. 10545-11817 343052-341781 21. 100315-104637 257546-253223
6. 12176-20526 341508-333222 22. 105728-108930 252161-248967
7. 22517-23190 331006-330333 23. 110407-121104 247596-236918
8. 23571-26340 330003-327227 24. 121202-125731 236859-232358
9. 26632-28838 326950-324747 25. 125880-129000 232057-228944
10. 30158-34371 323043-318826 26. 129900-134011 228137-224057
11. 37405-40713 315982-312679 27. 134400-138502 223720-219625
12. 41358-45669 312179-307878 28. 138550-139210 219491-218821
13. 52503-59856 303252-295935 29. 139649-142334 218384-215717
14. 60165-61691 295755-294227 30. 145910-148869 212243-209294
15. 65113-68479 291560-288181 31. 149315-150205 208904-208017
16. 70269-71603 286535-285200 32. 150564-155812 207661-202390
Как можно видеть из представленных координат, несовпадение некоторых участков, видимое на карте локального сходства, можно объяснить крупными геномными
перестройками. Так, например, разность между концом участка №12 и началом участка №13 контига составляет 6834 нуклеотида, в то время как для
соответствующих участков хромосомы бактерии она составляет всего лишь 4626 нуклеотидов, что может свидетельствовать о вставке 2208 нуклеотидов
в контиге или, наоборот, делеции в хромосоме бактерии.
2) NODE_11
Рис. 2. Изображение карты локального сходства хромосомы бактерии Buchnera aphidicola и контига node_11.
Таблица 2. Некоторые характеристики выравнивания хромосомы бактерии Buchnera aphidicola и контига node_11. |
Количество выравниваний |
Identity (общее) |
Кол-во гэпов (общее) |
16 |
74% |
1495 |
Как можно видеть из карты локального сходства, данный контиг в сравнении с предыдущим также ложится на хромосому хорошо, однако
заметны большие участки несоответствия, которые могут быть интерпретированы как геномные перестройки. Также при сравнении двух карт хорошо видно, что данный
контиг является продолжением предыдущего при наложении на хромосому. Координаты участков хромосомы, соответствующих контигу:
№ Коорд. контига Коорд. хромосомы № Коорд. контига Коорд. хромосомы
1. 7198- 11850 454069-449411 9. 39557-40410 421327-420477
2. 14422-17449 445895-442877 10. 43342-47936 417677-413081
3. 17579-19254 442817-441135 11. 49023-50837 412321-410512
4. 19376-19557 440944-440755 12. 55085-57253 406218-404050
5. 19647-19728 440732-440652 13. 57496-62479 403823-398904
6. 22353-25276 438139-435267 14. 62724-72165 398726-389348
7. 25338-28767 435241-431839 15. 74888-76355 386887-385425
8. 31369-35447 429483-425412 16. 76419-77702 385420-384182
3) NODE_1
Рис. 3. Изображение карты локального сходства хромосомы бактерии Buchnera aphidicola и контига node_1.
Таблица 3. Некоторые характеристики выравнивания хромосомы бактерии Buchnera aphidicola и контига node_1. |
Количество выравниваний |
Identity (общее) |
Кол-во гэпов (общее) |
13 |
77% |
2022 |
При сравнении данной карты локального сходства с предыдущими видно, что данный контиг является продолжением контига node_11 при наложении на хромосому.
При сравнении с хромосомой также видны 5 крупных перестроек. Координаты участков хромосомы, соответствующих контигу:
№ Коорд. контига Коорд. хромосомы № Коорд. контига Коорд. хромосомы
1. 5-2796 531590-528794 9. 44428-50485 488106-481997
2. 2866-8454 528679-523105 10. 50960-51639 481545-480874
3. 10457-14186 521500-517766 11. 51845-57719 480660-474844
4. 15452-21631 516539-510438 12. 57822-65135 474667-467412
5. 23323-31768 508806-500370 13. 65165-70106 467421-462496
6. 31884-36161 500325-36161
7. 37327-37445 495148-495033
8. 37579-38955 494864-493487
|