Всем Non-redundant protein sequences посвящается: Green Day - Redundant    

1. Поиск гомологов моего белка ❤

Итак, BLAST (в нашем случае blastp). Сначала в окошко "Enter Query Sequence" вводится либо аминокислотная последовательность, либо какой-нибудь идентификатор белка, для которого будет выполняться поиск гомологов (я ввела идентификатор ABB30628.1). Там же есть возможность загрузки файла с последовательностью. В "Query subrange" можно указать диапазон аминокислот из последовательности, по которому будет проиcходить поиск, если это необходимо.
Ниже, если не написано обратного, оставлены настройки по умолчанию. Далее в блоке "Choose Search Set" нужно выбрать базу данных ("Database"), в которой BLAST будет что-то искать. В "Organism" есть возможность указать организм(ы), белки которых надо или, наоборот, не надо (галочка на "exclude") рассматривать. Есть ещё отдельный "Exclude", чтобы поисключать какие-то другие группы.
Следующий блок - "Program Selection". Тут всё просто: выбор программы (алгоритма), осуществляющего поиск.
Теперь самое интересное - "Algorithm parameters":

Полную таблицу находок можно взять здесь.
Проект JalView с множественным выравниванием гомологов также можно скачать.
Посмотрим на получившееся выравнивание (Рис. 1).

Консервативный участок
Рис. 1. Консервативный участок в множественном выравнивании.

На представленном изображении Color Above identity treshold = 90%. С 29 по 41 остаток можно наблюдать консервативный участок, на основании наличия которого я констатировала гомологию выбранных белков.

2. Построение карты локального сходства двух белков

Для сравнения были взяты белки Dihydroneopterin aldolase из Didymella rabiei (A0A163IMY9_DIDRA) и Folic acid synthesis protein из Moniliophthora roreri (V2XV70_MONRO). Длины белков составляют соответственно 268 и 821 а.о. Относительно _DIDRA у _MONRO наблюдается транслокация участка 126-142 на участок 509-538, при этом его "разрывает" на две части некая инсерция на 517-530. Саму карту можно увидеть на Рисунке 2.

Карта локального сходства
Рис. 2. Карта локального сходства белков A0A163IMY9_DIDRA (OX) и V2XV70_MONRO (OY).

3. Игры с BLAST

Поиск по "случайной" последовательности в Swiss-Prot

Сочиненная последовательность: "I MEET MY FRIEND HERE". Изменила базу данных на Swiss-Prot и максимальное число последовательностей на 500. Итог: 113 находок, у нескольких из которых даже E-value меньше единицы. Текстовый файл с информацией о находках доступен по ссылке.

Поиск последовательности своего белка в Swiss-Prot с измененными параметрами

Искала также в Swiss-Prot, максимальное число последовательностей сделала равным 10000 и исключила из поиска белки из организмов семейства Geobacteraceae, содержащего бактерию, к протеому которой относится выданный мне белок. Количество находок (по сравнению с поиском в первом задании) сильно сократилось и составило 349.
В следующем сеансе поиска, помимо всего указанного выше, изменила Word size на 3. В результате число находок поднялось до 593. При этом E-value почти не изменилось, места верхних в списке белков не изменились.
В третьем сеансе относительно первого поставила в Compositional adjustments No adjustment, из-за чего E-value увеличилось: для самого близкого белка Q3A7R3.1 вместо 0.0 стало равно 4e-178.
Текстовые документы с результатами поисков можно просмотреть: 1, 2, 3