Практикум 10

Цель этого практикума — подобрать две нуклеотидные последовательности, для которых карты локального сходства, построенные Megablast и BLASTN, заметно различаются.


1 Поиск последовательностей

Поиск производится NCBI Nucleotides по запросу «(Klebsiella[Organism]) AND chromosome[Title]», и учитывались только находки из RefSeq (Рис. 1.). Я выбрал геномы двух штаммов одной бактерии:
Klebsiella pneumoniae strain 1050 (NZ_CP023416.1) и
Klebsiella pneumoniae strain CRKP_24 (NZ_CP107408.1)
Затем с помощью blastn и megablast на сайте NCBI были построены две карты локального сходства. При использовании blastn я сначала пытался использовать длину слова «7», но бласт выдавал ошибку и недостатке выданной мне вычислительной мощности, поэтому в итоге сделал со стандартным значением «11».



Рис. 1. Запрос в NCBI Nucleotides и выбранные последовательности



Рис. 2. Dotplot по результатам megablast

Рис. 3. Dotplot по результатам blastn

На изображениях (Рис. 2. и Рис. 3.) видно, что в общих чертах выравнивания при помощи двух алгоритмов одинаковы, то есть видны одни и те же изменения на главной линии графика. Однако, на графике, выданном blastn, больше точек и небольших линий вне основной линии, указывающие на множество коротких повторов в последовательностях. В данном конкретном случае, если нас интересуют эти повторы, то надо обратиться к графику от blastn, а если нет, то можно брать любой, потому что по сути основные геномные перестройки видны на обоих изображениях. Точки, быть может, могут мешать чтению графика, но не в данном случае, как я считаю. Кстати, если при использовании megablast увеличить "word size", то точек будет ещё меньше (логично, ведь станет обнаруживаться меньше коротких повторов).


2 Описание карты локального сходства

Зелеными стрелками на графике (Рис. 4.) обозначены инсерции/делеции. Они довольно небольшие. Например, на уровне чуть менее 2М по оси X либо делеция в последовательности NZ_CP023416.1 (расположена на оси Y), то ли вставка в последовательности NZ_CP107408.1 (расположена на оси X).

Рис. 4. Карта локального сходства по результатам megablast с пометками.

Красным обозначен участок, в котором, видимо, последовательности сильно различаются (участок с низкой консервативностью).
Это не инсерция/делеция, так как сдвига основной линии графика вверх или вниз там нет. Больше никаких существенных перестроек не замечено:
1. Основная линия одна (нет больших дупликаций или инверсий).
2. Линия идёт из угла в угол (точка начала прочтения у геномов одинаковая).