Практикум 12: BLAST

Конспект - запуск BLAST

Задание 1. Гомологичные последовательности

Ссылка на отчетную табличку

Ссылка на Jalview проект

image
В принципе, по приведенным параметрам эти тоже можно считать гомологичными. Удалила я из первоначального набора только Probable 2-carboxy-D-arabinitol-1-phosphatase (как ни странно, Е = 1е-19) и 2,3-bisphosphoglycerate-dependent phosphoglycerate mutase (Е = 8е-07). Осталась и последовательность с Е = 0.004 (она самая нижняя). Обоснуем гомологичность: Участок с 55 по 93 начинается и заканчивается 100% консервативными позициями, длиной он 38 аминокислот, колонок с гэпами там нет (кроме оставшейся от множественного выравнивания) Плотность консервативных позиций не очень видна на пороге above 90 для 11 последовательностей, но ставим 50% и получаем другую картинку: image
Почему так вышло? Замечу, что на самом деле выявленные BLAST белки не сильно варьировались по названиям, и почти везде было 'phosphotase'. Плюс весь низ таблицы занимали белки 2,3-bisphosphoglycerate-dependent phosphoglycerate mutase, что и из выравнивания видно (нижние белки между собой обладают очень большим сходством).
Можно сделать вывод, что при заданных параметрах поиска (все брались исходные), бласт действительно выдает в большинстве своем белки гомологичные. Видимо, фосфатаза и мутаза имели общего предка - функции хоть и немного различны, но субстрат и катализируемая реакция, а значит и конформация и строение не должны сильно различаться.

Задание 2. Карта сходства

Взяты A0A163IMY9_DIDRA и A0A0M2LYI0_9MICO.
image
Если я правильно понимаю, вторая последовательность (та что выставлена по горизонтали - DIDRA) является дважды повторенным куском конца последовательности MICO. То есть это дупликация второго участка. Тк наклон положительный, то переворачиваний не происходило. Разрывы со смещением соответствуют вставке каких-либо аминокислот.

Задание 3. Игры с BLAST

Некодирующая последовательность - На что стоит обратить внимание

Написалась программка, выдающая случайную аминокислотную последовательность:
import random
length = int(input())
s = str()
for i in range(length):
s += random.choice('GAVLICMFYWPSTNQDEHKR')
print(s)


Сначала на гипотетическом белке длиной 200 аминокислот
Запуск с обычными параметрами (я не уследила и БД - nr) дал 4 последовательности, причем минимальное E было 0.21
С wordcount 2 выдача дала уже 6 последовательностей, Е снова в дипозоне от 0.21 до 10(то что до 10 не удивительно оно в Expected по умолчанию стоит)
Wordcount 2 и Gap Costs снижен до 9 (extention все еще 1). Белков в выдаче 5, из них 2 совсем новых.
Тот с которым Е было 0.21 теперь 0.73. Я снизила штраф за индели, что в целом упростило выравнивание с моей последовательностью, а значит матожидание выросло.
В общем можно сделать вывод, что совсем рандомную последовательность большой длины - штука редкая, и не будет особо ни с чем выравниваться. На самом деле моя програмка исходит из того, что все аминокислоты встречаются в природе с одинаковой вероятностью, что, конечно неправда и учитывается при построении выравниваний (для этого и есть матрицы сходства)

А теперь возьмем белок длиной 30 аминокислот
Я взяла wordcount 2 и галочка на adjustment. Снова минимальное E 0.33, количество последовательностей стало более 20000.
Видимо отличия от рабочих пептидов замтны даже на 30 аминокислотах!

Мой белок - wordsize

БД - swissprot
Выдача составила (в скобочках количество выдач с Е меньше 1e-15):
2 - 422 (15)
3 - 421 (15)
6 - 344 (14)
В целом конечно заметно более вкрадчивый поиск - схожих белков обнаружилось больше

Коллаген и Compositional adjustments

Я взяла коллаген гидры (а в коллагене перепредставлены G и P ) - BAA23625.1 И запустила с wordcount 6.
для conditional compositional score matrix adjustment выдача составила 257 белков
а для no adjustment - 500 белков
причем E во втором случае были в целом выше Вывод: лучше там ставить галочку, подстраивание матрицы это полезно!