Знакомство с BLAST

Для последовательности белка D-псикоза-3-эпимеразы из генома бактерии Ruminiclostridium cellulolyticum H10 был произведен поиск гомологичных последовательностей с помощью инструмента BLAST. Создана таблица находок. Из таблицы взяты имена последовательностей из начала, середины и конца. Сделаны 3 множественных выравнивания.

Таблица 1. Описание параметров BLAST
Название Значение
Enter accession number(s), gi(s), or FASTA sequence(s) Это такое окошко, в которое надо ввести п-ть белка или его идентификатор. Кстати, можно просто скачать файл с нужной п-тью с помощью upload file
Query subrange (From To) Можно указать координаты для поиска
Align two or more sequences Для поиска нескольких п-тей
Database База данных, по которой будут проводится поиск, например, SwissProt
Organism По какому организму будет проводится поиск. Можно исключить, если поставить флажок 'Exclude'. #ничего не поставим.
Exclude: Models (XM/XP) / Non-redundant RefSeq proteins (WP) / Uncultured/environmental sample sequences Исключить:
  • модели, основанные на анализе геномной ДНК
  • неизбыточные п-ти из RefSeq
  • То, что выделено из окружающей среды (т.е не искусственно)
В данном случае ничего не поставим.
Algorithm Алгоритм поиска. Введем blastp(protein-protein BLAST)
Max target sequences Максимальное число последовательностей для поиска. Введем 20000, чтобы не пропустить ни одног белка
Short queries Для маленьких п-тей делает автоматические параметры, поэтому для моего белка пропускаем этот пункт, т.к моя п-ть некороткая
Expect threshold Ожидаемое число случайных совпадений в произвольной последовательности. Чем меньше E-value (математическое ожидание числа находок BLAST с данным или большим весом в случайном банке того же размера и состава АК), тем более схоже выравнивание. Поставим E-value 10
Word size Задает длину, на которые делятся п-ти. Введем 6
Max matches in a query range Ограничивает число выравниваний с одним участком белка. Показывает сильные совпадения и слабые. Оставим 0
Matrix Тип матрицы для вычисления веса выравнивания. Введем BLOSUM62
Gap Costs Штраф за гэп. Оставим Existence: 11 (за первый) Extension: 1 (за последующий)
Compositional adjustments Для участков малой сложности, так как сходство с этими участками будет высоко, но это не будет "правдой". Введем Conditional compositional score matrix adjustment
Filter Low complexity regions Замаскировать участки малой сложности
Mask for lookup table only Замаскировать участки малой сложности, но лишь на первом этапе работы BLAST
Mask Mask lower case letters Замаскировать строчные буквы во введенной последовательности

Когда я запустила BLAST с моей бактерией, то в результате получила 16 последовательностей. Результаты вы можете скачать здесь . Я сравнивала 3 множественных выравнивания:

BLAST также выдает распределение запросов. Сверху, в секции Query seq. изображена линейная последовательность белка–запроса. Ниже изображены результаты поиска. Здесь графически представлено покрытие каждого результата. Также здесь представлены величены E-value, оценить которые мы можем с помощью цветов. Красным окрашены последовательности с очень низким E-value.

Карта локального сходства A0A067N9N0_PLEOS (ось абцисс) и FOL1_DICDI (ось ординат).

В BLAST есть опция 'DOT PLOT', которая строит карту гомологичности белков. BLAST построил 3 основных линии выравнивания. "Прерываемость" линий обусловлена наличием инделей в локальном выравнивании. Как мы видим у последовательности A0A067N9N0_PLEOS произошла большая дупликация, а самый верхний "отрезок" последовательности FOL1_DICDI никакой значимой биологической информации не несет из-за высокого значения E-value (0.61).

Игры с BLAST

Для игры с п-тью, некодирующей белок был использован фрагмент из стихотворения С. Есенина " Мне осталась одна забава ...", который был переведен на английский язык, были удалены табуляторы и изменен регистр :

ISTAYEDONEGAMEFINGERSINHISMOUTHANDCHEERFULWHISTLINGSWEPTNOTO RIETYTHATMARAKEANDABRAWLERAHWHATRIDICULOUSLOSSMUCHINLIFEISRI DICULOUSLOSSESIAMASHAMEDTHATIINGODBITTERLYMETHATNOTBELIEVENO WGOLDFARAWAYALLBURNSWORLDLYMRETANDISWOREANDBRAWLEDTOBURNBRIG

Здесь мы изменяли Wordsize (чем больше длина слова, тем меньше вероятность найти гомологичную п-ть), Database (разные базы выдают разные данные), Matrix (выдают разные данные, так как задумка создания каждой матрица разная (PAM для близкородственных))).

Результаты описаны в таблице-игра

Для игры с моим белком ACL75304.1 мы баловались с Organism (ищет гомологичные п-ти только среди указанных), E-value (Expect threshold , чем больше E-value, тем ниже вероятность найти действительных гомологов), gap costs (при изменении у меня изменялось число находок, хоть и не всегда, поэтому я подобрала те штрафы, которые бы дали изменение. Но одно остается фактом: при изменении gap изменяется вся информация об выравниваниях(score, % и т.д)).

Результаты описаны в таблице