Выравнивание двух геномов и их сравнение с помощью DotPlot

Я долго пытался подобрать подходящий объект, но все DotPlot'ы получались либо слишком простыми, либо бессмыссленными. По итогу я остановился на сравнении геномов двух бактерий: Mycobacterium leprae и Mycobacterium lepromatosis, которые вызывают проказу. Их референсные геномы я нашел в базе данных NCBI Genomes, перешел в базу данных Nucleotide (для Mycobacterium leprae AC- CP029543, для Mycobacterium lepromatosis AC- CP083405) и скачал оттуда последовательности их геномов.

Далее я использовал blastn и megablast, чтобы выровнять последовательности друг на друга. Оба алгоритма я запускал с параметрами по умолчанию- размер слова в blastn 11, а в megablast- 28. Получившиеся после работы BLAST DotPlot'ы вы можете увидеть ниже.

Рис. 1. DotPlot полученный алгоритмом blastn. По оси Х- геном Mycobacterium lepromatosis, по оси Y- геном Mycobacterium leprae.
Рис. 2. Dotplot полученный алгоритмом megablast. По оси Х- геном Mycobacterium lepromatosis, по оси Y- геном Mycobacterium leprae.

Как вы можете увидеть, графики получились очень похожими, что ожидаемо для близкородственных видов- Mycobacterium lepromatosis является ближайшим родственником Mycobacterium leprae, более того, Mycobacterium lepromatosis была выделена в отдельный вид только в 2008 году по результатам анализа 16S рРНК. На графике от megablast меньше 'шума' (коротких участков в разных частях генома, совпадающих у двух бактерий), поэтому для последующего анализа мы используем именно его.

Рисунок ниже- график megablast, на котором я отметил все геномные перестройки, далее мы обсудим их подробнее.

Рис. 3. DotPlot полученный алгоритмом megablast, на котором отмечены места геномных перестроек. По оси Х- геном Mycobacterium lepromatosis, по оси Y- геном Mycobacterium leprae.

Рассмотрим подробнее каждую перестройку:

Мы рассмотрели все крупные перестройки, видные на DotPlot'e, по итогу можно сказать, что не смотря на близкое родство Mycobacterium lepromatosis и Mycobacterium leprae, по моим подсчетам их разделяет как минимум 10 различных хромосомных перестроек: по 1 на участках 1, 6, 7, 8; по 2 на участках 2 и 3; 1- перенос фрагмента, содержащего 4, 4* и 5; и последний- перенос участка 5.