Цель этого практикума — подобрать две нуклеотидные последовательности, для которых карты локального сходства, построенные Megablast и BLASTN, заметно различаются.
Поиск производится NCBI Nucleotides по запросу «(Klebsiella[Organism]) AND chromosome[Title]»,
и учитывались только находки из RefSeq (Рис. 1.). Я выбрал геномы двух штаммов одной бактерии:
Klebsiella pneumoniae strain 1050 (NZ_CP023416.1) и
Klebsiella pneumoniae strain CRKP_24 (NZ_CP107408.1)
Затем с помощью blastn и megablast на сайте NCBI были построены две карты
локального сходства. При использовании blastn я сначала пытался
использовать длину слова «7», но бласт выдавал ошибку и недостатке
выданной мне вычислительной мощности, поэтому в итоге сделал со стандартным значением «11».
Рис. 1. Запрос в NCBI Nucleotides и выбранные последовательности
Рис. 2. Dotplot по результатам megablast
Рис. 3. Dotplot по результатам blastn
На изображениях (Рис. 2. и Рис. 3.) видно, что
в общих чертах выравнивания при помощи двух
алгоритмов одинаковы, то есть видны одни и те же изменения на главной линии графика.
Однако, на графике, выданном blastn, больше точек и небольших линий вне основной линии,
указывающие на множество коротких повторов в последовательностях.
В данном конкретном случае, если нас интересуют эти повторы,
то надо обратиться к графику от blastn, а если нет, то можно брать любой, потому что
по сути основные геномные перестройки видны на обоих изображениях. Точки, быть может,
могут мешать чтению графика, но не в данном случае, как я считаю.
Кстати, если при использовании megablast увеличить "word size", то точек будет ещё меньше
(логично, ведь станет обнаруживаться меньше коротких повторов).
Зелеными стрелками на графике (Рис. 4.) обозначены инсерции/делеции. Они довольно небольшие. Например, на уровне чуть менее 2М по оси X либо делеция в последовательности NZ_CP023416.1 (расположена на оси Y), то ли вставка в последовательности NZ_CP107408.1 (расположена на оси X).
Рис. 4. Карта локального сходства по результатам megablast с пометками.
Красным обозначен участок, в котором, видимо, последовательности сильно различаются
(участок с низкой консервативностью).
Это не инсерция/делеция, так как сдвига основной линии графика вверх или вниз там нет.
Больше никаких существенных перестроек не замечено:
1. Основная линия одна (нет больших дупликаций или инверсий).
2. Линия идёт из угла в угол (точка начала прочтения у геномов одинаковая).