BLAST

Всем Non-redundant protein sequences посвящается: Green Day - Redundant

1. Поиск гомологов моего белка ❤

Итак, BLAST (в нашем случае blastp). Сначала в окошко "Enter Query Sequence" вводится либо аминокислотная последовательность, либо какой-нибудь идентификатор белка, для которого будет выполняться поиск гомологов (я ввела идентификатор ABB30628.1). Там же есть возможность загрузки файла с последовательностью. В "Query subrange" можно указать диапазон аминокислот из последовательности, по которому будет проиcходить поиск, если это необходимо.
Ниже, если не написано обратного, оставлены настройки по умолчанию. Далее в блоке "Choose Search Set" нужно выбрать базу данных ("Database"), в которой BLAST будет что-то искать. В "Organism" есть возможность указать организм(ы), белки которых надо или, наоборот, не надо (галочка на "exclude") рассматривать. Есть ещё отдельный "Exclude", чтобы поисключать какие-то другие группы.
Следующий блок - "Program Selection". Тут всё просто: выбор программы (алгоритма), осуществляющего поиск.
Теперь самое интересное - "Algorithm parameters":

General Parameters
- Max target sequences (20000) - выбор максимального числа последовательностей, выдаваемых BLAST в качестве результата поиска;
- Short queries - вкл/выкл для автоматической подстройки параметров под короткие последовательности;
- Expect threshold - максимальное E-value (ожидаемое количество случайных находок такого же, как у рассматриваемого на данный момент выравнивания, или большего веса в "перемешанной" базе данных того же размера и состава), в случае достижения которого поиск прекращается;
- Word size - минимальный размер участка последовательности, по которому будет строиться локальное выравнивание исходной и искомой последовательностей (минимум такое количество аминокислот подряд должно совпасть);
- Max matches in a query range - ограничение количества совпадений на одном участке последовательности (увеличение значения позволяет BLAST "обращать внимание" на менее весомые совпадения на других участках);
Scoring Parameters
- Matrix - выбор матрицы для подсчета веса выравнивания;
- Gap Costs - цена за гэпы (в случае инделя, первый и каждый следующий);
- Compositional adjustments - варианты корректировки матрицы (путем аналитического или, в нашем случае, экспериментального расчета констант для аминокислотных замен) для получения более точного E-value, борьбы с так называемыми участками малой сложности (со смещенным аминокислотным составом);
Filters and Masking
- Filter - можно включить маскировку тех самых участков малой сложности;
- Mask - первая галочка: маскировка участков малой сложности на этапе поиска "слов-затравок" (длину которых мы указывали в Word size), но не на этапе построения выравнивания относительно найденной "затравки"; вторая галочка: маскировка строчных букв (может быть удобно в случае ручного редактирования входной последовательности для получения других результатов поиска).

Полную таблицу находок можно взять здесь.
Проект JalView с множественным выравниванием гомологов также можно скачать.
Посмотрим на получившееся выравнивание (Рис. 1).

На представленном изображении Color Above identity treshold = 90%. С 29 по 41 остаток можно наблюдать консервативный участок, на основании наличия которого я констатировала гомологию выбранных белков.

2. Построение карты локального сходства двух белков

Для сравнения были взяты белки Dihydroneopterin aldolase из Didymella rabiei (A0A163IMY9_DIDRA) и Folic acid synthesis protein из Moniliophthora roreri (V2XV70_MONRO). Длины белков составляют соответственно 268 и 821 а.о. Относительно _DIDRA у _MONRO наблюдается транслокация участка 126-142 на участок 509-538, при этом его "разрывает" на две части некая инсерция на 517-530. Саму карту можно увидеть на Рисунке 2.

**Рис. 2.** Карта локального сходства белков A0A163IMY9_DIDRA (OX) и V2XV70_MONRO (OY).

3. Игры с BLAST

Поиск по "случайной" последовательности в Swiss-Prot

Сочиненная последовательность: "I MEET MY FRIEND HERE". Изменила базу данных на Swiss-Prot и максимальное число последовательностей на 500. Итог: 113 находок, у нескольких из которых даже E-value меньше единицы. Текстовый файл с информацией о находках доступен по ссылке.

Поиск последовательности своего белка в Swiss-Prot с измененными параметрами

Искала также в Swiss-Prot, максимальное число последовательностей сделала равным 10000 и исключила из поиска белки из организмов семейства Geobacteraceae, содержащего бактерию, к протеому которой относится выданный мне белок. Количество находок (по сравнению с поиском в первом задании) сильно сократилось и составило 349.
В следующем сеансе поиска, помимо всего указанного выше, изменила Word size на 3. В результате число находок поднялось до 593. При этом E-value почти не изменилось, места верхних в списке белков не изменились.
В третьем сеансе относительно первого поставила в Compositional adjustments No adjustment, из-за чего E-value увеличилось: для самого близкого белка Q3A7R3.1 вместо 0.0 стало равно 4e-178.
Текстовые документы с результатами поисков можно просмотреть: 1, 2, 3