Выравнивание двух геномов и их сравнение с помощью DotPlot
Я долго пытался подобрать подходящий объект, но все DotPlot'ы получались либо слишком простыми, либо бессмыссленными. По итогу я остановился на сравнении геномов двух бактерий: Mycobacterium leprae и Mycobacterium lepromatosis, которые вызывают проказу. Их референсные геномы я нашел в базе данных NCBI Genomes, перешел в базу данных Nucleotide (для Mycobacterium leprae AC- CP029543, для Mycobacterium lepromatosis AC- CP083405) и скачал оттуда последовательности их геномов.
Далее я использовал blastn и megablast, чтобы выровнять последовательности друг на друга. Оба алгоритма я запускал с параметрами по умолчанию- размер слова в blastn 11, а в megablast- 28. Получившиеся после работы BLAST DotPlot'ы вы можете увидеть ниже.
Как вы можете увидеть, графики получились очень похожими, что ожидаемо для близкородственных видов- Mycobacterium lepromatosis является ближайшим родственником Mycobacterium leprae, более того, Mycobacterium lepromatosis была выделена в отдельный вид только в 2008 году по результатам анализа 16S рРНК. На графике от megablast меньше 'шума' (коротких участков в разных частях генома, совпадающих у двух бактерий), поэтому для последующего анализа мы используем именно его.
Рисунок ниже- график megablast, на котором я отметил все геномные перестройки, далее мы обсудим их подробнее.
Рассмотрим подробнее каждую перестройку:
- Участок 1- простая инверсия
-
- Участок 2- перенос фрагмента генома + инверсия. Более того, после этого 'правая' (на графике) часть (примерно половина) переместившегося фрагмента вырезалась и переместилась левее левой половины встроившегося участка (ну или левая часть переместилась правее правой части, это даст тот же результат. Надеюсь достаточно понятно :))
-
- Участок 3- ситуация аналогична ситуации на участке 2, но переместившаяся после первого переноса фрагмента ДНК часть по размеру не равна половине (либо бОльшая часть переместилась направо, либо меньшая часть налево)
-
- Участок 4, 4* и 5- ситуация очень интересная, я интерпретировал ее так: сначала произошел перенос участка ДНК, включавшего в себя 4, 4* и 5. Затем из него вырезался участок 5 и с инверсией перенесся в другую часть генома
-
- Участок 6- простой перенос участка ДНК
-
- Участок 7- ситуация интереснее, судя по всему он появился при дупликаци участка 4*, его переносе в другой участок генома и встраивании туда с инверсией
-
- Участок 8- крупная перестройка, участок ДНК вырезался из ДНК и встроился в другую часть генома с инверсией
Мы рассмотрели все крупные перестройки, видные на DotPlot'e, по итогу можно сказать, что не смотря на близкое родство Mycobacterium lepromatosis и Mycobacterium leprae, по моим подсчетам их разделяет как минимум 10 различных хромосомных перестроек: по 1 на участках 1, 6, 7, 8; по 2 на участках 2 и 3; 1- перенос фрагмента, содержащего 4, 4* и 5; и последний- перенос участка 5.