BLAST

Поиск гомологичных белков и построение выравнивания

В сервисе BLAST был открыт раздел protein. В поле поиска введен AC последовательности в Uniprot. Поиск проводился со следующими параметрами:

Остальные параметры были выбраны по умолчанию. В них вошли такие параметры алгоритма как: Organism - позволяет выбрать организм или организмы, по котором будет произовдиться поиск. Если надо, можно наоборот исключить из поиска определённые организмы; Exclude - позволяет исключить определённые последовательности из поиска; Algorithm - позволяет выбрать алгоритм, по которому будет производиться поиск; Short queries оптимальные параметры для поиска коротких последовательностей; Expect threshold - задаёт верхний порог E-value; Word size - задаёт размер слова, при совпадении которого программа начнёт выравнивание с последовательностью, чем больше, тем быстрее програма работает, но тем выше шанс пропустить нужную последовательность; Max matches in a query range - задает ограничение по максимальному числу совпадений между введённой последовательностью и последовательностями в базе данных; Matrix - выбор матрицы очков выравнивания; Gap Costs - размер штрафов за гэпы; Compositional adjustments - позволяет избежать ложных результатов, связанных с участками малой сложности; Filters and Masking- дополнительные фильтры

В результате работы Blast была получена таблица. Из списка находок выбраны несколько последовательностей, для них получено множественное выравнивание, найден участок гомологии, приведенный на изображении ниже. Имеются 100% консервативные столбцы, между которыми высокая плотность консервативных позиций и нет гэпов.

block block

Первый белок - сама исходная последовательность глутатионсинтетазы АВ, три последних - глутамат-цисеинлигазы различных бактерий, то есть белки существляющиесходную реакцию. А вот 2 и 3 строчки - цианофицинсинтетазы - фермента, катализирующего образование особого полимера у цианобактерий - цианфицина, состоящего из мономеров аргинина и аспартата (реакция на изображении ниже). Данное явление требует дополнительных исследований.

cyano

Карта сходства двух белков

Были выравнены две последовательности из базы TrEMBL- E6R1P3_CRYGW (Folic acid and derivative biosynthesis-related protein), L332_05965 (7,8-dihydroneopterin aldolase). По выравниванию построена карта сходства:

chart

Видно, что у белков произошла транслокация и, возможно, произошла короткая дупликация в последовательности E6R1P3_CRYGW.

Игры с BLAST

В поиск была введена последовательность, полученная случайным набором по клавиатуре "symccmdvymfmkdvmdfmbvdfbvfdmkyaghaynavmmdvmrspmebrsdovininrfnwenfnqeyfnqwf". Поиск велся по нереензированным поседовательностям. Со стандартными значениями не нашлось ничего, после изменения Max target sequences на 20 000, Expect threshold на 100, а Word size на 2 нашлось 50 последовательностей с E-value от 11 до 90 и процентом покрытия до 71%

При изменении Max target sequences меняется только число полученных последовательностей. При изменении Expect threshold с 10 до 100 число найденых последовательностей увеличивается за счёт неродственных последовательностей. При изменении Word size с 6 до 2 время работы и количество находок увеличились, также возросли E-value. Если изменить штрафы за гэпы на 6/2 вместо 11/1, то количество результатов растёт, как и максимальное значение E-value. Если установить матрицу очков на BLOSUM90 вместо BLOSUM62, то количество результатов сократится, а значение E-value вырастет.