-
Megablast - программа для быстрого чернового выравнивания, работает с со словами с шагом 4 в индексах (т. е. не с полной последовательностью слов), штрафы за гэпы линейные, длина слова - 28, то есть не маленькая.
BLASTN - алгоритм более чувствительный, работает с длиной слова 11, опционально 7 или 4, штрафы за гэпы афинные, вся последовательность участвует в поиске.
То есть их результаты будут значимо различаться при анализе двух близкородственных, но значимо отличающихся сиквенсов.
Я смотрю на два штамма вируса иммунодефицита человека: Human-Simian immunodeficiency virus P3-284 и Simian-Human immunodeficiency virus
Сравниваю их геномы, длиной 9904 и 9940 нуклеотидов соответственно.
Видно, что второй алгоритм более чуствителен: он нашел сходство в начале последовательностей, которое не заметил мегабласт. В случае вирусного генома бластн дает меньше шума (так как последовательности недлинные, шанс найти случайное сходство меньше), чем в случае мегабазных геномов бактерий. Мои предыдущие попытки посравнивать разных бактерий были неудачными - карты локального сходства отличались только количеством шума.