Работа в BLAST.

Параметры запуска Blast В результате работы Blast получена таблица. Из списка находок выбраны несколько последовательностей, для них получено множественное выравнивание, найден участок гомологии, он приведён на картинке: none Выравнивание целиком можно посмотреть здесь.

Карта сходств двух белков

Были выбраны 2 белка: V2XV70_MONRO(Folic acid synthesis protein) и S7RMD1_GLOTA(Tetrahydrobiopterin biosynthesis enzymes-like protein), для них построена карта сходств.
map
Как видно из карты, имеется длительный выровненный участок с маленькими делециями(инсерциями). Красные стрелки указывают, в каком белке произошла делеция: в соответствующем горизонтальной или вертикальной оси. Есть 3 объяснения участка в конце: либо в предковом белке произошла дубликация, а затем в одном из белков роизошла крупная делеция; либо дубликация и инсерция произошли в одном из белков уже после дивергенции; либо же это артефакт и в одном из белков просто произошла делеция.

Всякое разное.

Поиск по произвольной последовательности.

Blast не дал ничего при запросе "for i will consider my cat jeoffry", даже при повышении порога E-value до 100. Но при изменении длины слова на 2 нашлось несколько последовательностей с E-value от 5.9

Вариации работы Blast

При изменении Max target sequences с 20000 до 100 кроме собственно изменения числа полученных последовательностей(с 906 до 100 лучших) не меняется ничего, даже время работы. Видимо, большая часть времени тратится на поиск возможных гомологов(см. word size)
При изменении Expect threshold с 10 до 50 число найденых последовательностей немного увеличивается за счёт неродственных последовательностей.
При изменении Word size с 6 до 2 время работы увеличивается, количество находок увеличилось с 906 до 5841 последовательностей, увеличение произошло во всех значениях E-value, особенно в области высоких значений При изменении Matrix с BLOSUM62 на PAM70 набор лучших гмологий изменился слабо, но E-value изменилось: больше ни у одной последовательности оно не было равно 0. Самые худшие последовательности из найденных изменились, общее же число находок немного возросло, вероятно, по случайным причинам. При изменении Compositional adjustments с Conditional compositional score matrix adjustment на no adjustment произошло примерно то же самое: E-value было иначе рассчитано, лучшие последовательности его изменили, но остались в топе, худшие сменились Filer low complexity regions не меняет ничего Оба варианта mask несколько меняют набор находок, количество их уменьшается на 1, E-value сохраняющихся не меняется