Nikolskaya pr12

Практикум 12. BLAST

В этом практикуме я научилась пользоваться программой BLAST и разобралась, что означает каждый из параметров запуска. Также я изучила критерии, по которым можно судить о гомологичности белковых последовательностей.

Задание 1. Поиск гомологов белка D-аланин-D-аланиновой лигазы бактерии Leuconostoc mesenteroides subsp. mesenteroides ATCC 8293 в БД Swissprot

Для поиска белковых последовательностей использовалась программа BLASTp на сайте NCBI. При первом запуске мною были изменены параметры Database, Max target sequences и Word size. Остальные параметры были выставлены по умолчанию. Результаты отображены в таблице Excel.

Описание параметров Blast

Database - выбор базы последовательностей. UniProtKB/Swiss-Prot(swissprot) - находки среди белков со статусом Reviewed
Organism - поиск среди белков выбранных таксонов или отдельных организмов (опционально).
Algorithm - выбор алгоритма поиска. По умолчанию blastp - медленное сравнение с целью поиска всех сходных последовательностей. В зависимости от поставленной задачи можно производить поиск по определённому паттерну (PHI-BLAST), доменам (DELTA-BLAST) или же искать последовательности с незначительным сходством (PSI-BLAST).
Max target sequences - выбор максимального числа последовательностей для отображения. Я выставила ограничение в 20000 находок.
Short queries - автоматически выставленные параметры, борьба с участками малой сложности. Данные выравнивания не являются гомологами, хотя имеют хороший E-value.
Expect threshold - порог на значение E-value. E-value отражает ожидаемое количество случайных находок с таким же или лучшим весом выравнивания с учётом выставленных параметров. Чем ниже значение E-value, тем находка более статистически значима. По умолчанию имеет значение 10.
Word size - алгоритм BLAST разбивает исходную последовательность на слова (участки) длины k (по умолчанию для аминокислотных последовательностей k = 6). Программа сравнивает список таких "слов" со всеми возможными словами данной длины в банке последовательностей. Устанавливается определённый вес, относительно которого слова считаются похожими, остальные стираются. Ведётся поиск по соседним словам на одной диагонали, на расстоянии друг от друга меньше, чем определённый порог. Выравнивание идёт в обе стороны от найденных слов, причём количество очков уменьшается за счёт гэпов и несовпадений. Чем больше длина слова, тем быстрее работает BLAST, но тем меньше его чувствительность. В этом задании я установила длину участков, равную 3.
Max matches in a query range (0) - ограничение числа находок BLAST в одной последовательности из банка; 0 - ограничений нет. Полезно, если совпадения с большим весом покрывают совпадения с меньшим весом при выравнивании с другой частью исходной последовательности.
Matrix - по умолчанию в программе BLAST используется матрица BLOSUM62. Матрицы замен содержат оценки веса для любой пары замены аминокислоты на другую аминокислоту. Каждая матрица соответствует специфическому порогу сходства.
Gap Costs - устанавливает величину штрафа за открытие инделя и за каждый последующий символ гэпа.
Compositional adjustments - маскирование и фильтрация участков малой сложности.

Построение множественного выравнивания

Среди находок я выбрала 7 белков. Было выбрано 6 предположительно гомологичных белков с разными названиями и отличающимися значениями E-value, но с большим процентом покрытия(>90%). Для сравнения был включён белок с большим значением E-value (2,8) и покрытием 50%. В программе Jalview было построено множественное выравнивание выбранных последовательностей (Рисунок 1). Затем я удалила часть последовательностей, участки выравнивания с которыми не свидетельствовали о гомологии. На Рисунке 2 можно увидеть выравнивание всех гомологичных последовательностей.

Нетрудно заметить, что представленный участок с 87 по 102 аминокислоту представлен 16 колонками без гэпов, начинается и завершается абсолютно консервативной позицией и имеет высокую плотность консервативных позиций (7 абсолютно консервативных колонок). Эти признаки могут свидетельствовать о гомологии выбранных последовательностей. Полное выравнивание можно увидеть в проекте (jvp).

кортинка — Рисунок 1. *Участок множественного выравнивания в программе Jalview*

Задание 2. Карта сходства двух белков.

Из предложенных белков в файле было выбрано 2 белка из разных групп (идентификаторы U1LPR7_9MICO; F4Q4S4_CAVFA). Это белки из организмов Agrococcus pavilionensis RW1 и Cavenderia fasciculata (strain SH3) (Slime mold). Карта сходства (Dot Matrix) представлена на Рисунке 3. Для этих последовательностей программа BLAST привела 5 вариантов возможных локальных выравниваний (изображение). Рассмотрим первые три выравнивания с низким E-value. По карте видно, что первое выравнивание представляет собой достаточно длинный участок с мелкими делециями в первой последовательности (я насчитала 4 штуки). Второй участок выровнен без использования гэпов, поэтому линия не прерывается. Можно предположить, что произошла транслокация участка первой последовательности (участок в результате крупной перестройки мог переместится в конец). Думаю, эти белковые последовательности гомологичны.

картинка — Рисунок 3. *Карта сходства двух белков. По оси OX - белок U1LPR7_9MICO (Query_55901), по оси OY - белок F4Q4S4_CAVFA(Query_55903)*

Задание 3. Игры с BLAST.

Поиск по "случайной" последовательности

Для первого эксперимента я взяла последовательность, которая точно не кодирует белок - 'You can get addicted to a certain kind of sadness'. Для начала я запустила Blast с параметрами по умолчанию. Программа вывела один единственный результат с покрытием 67% и E-value, равным 2.6 (всё равно высокий). Очевидно, с повышением порога на E-value (параметр Expect threshold) количество находок возрастает. Поиск только по базе данных Swissprot дал 3 результата с E-value 21, остальные на порядки выше. Изменив параметр Word size на 3, добавилась интересная находка с E-value 0,25 (предсказанный белок) и покрытием 92% (Рисунок 4). То есть, действительно, при уменьшении длины слова поиск получается более полноценным, хоть и занимает больше времени.

Поиск по последовательности белка D-аланин-D-аланиновой лигазы с измененными параметрами

Отталкиваться буду от результатов задания 1. Следующие запуски были проведены с измененными параметрами Database: UniprotKB/Swiss-Prot, Max target sequences: 20000 и Word size = 3. Остальные параметры были выставлены по умолчанию.

Изменение параметра Word size

Word Size: 6. Число находок: 468

Word Size: 3. Число находок: 544

Word Size: 2. Число находок: 547

Можно сделать вывод, что с уменьшением длины слова возрастает число находок. Новые результаты не изменили 'топ-100' (судя по графикам).

Изменение параметра Organism

Я исключила из результатов поиска бактерий, поставив галочку рядом с exclude. Не смогла объяснить, почему из результатов поиска не исключилась гамма-протеобактерия (тогда я провела поиск только по бактериям и среди них оказалось много других видов Acinetobacter). Таксономический состав представлен на Рисунке 5. Число находок: 21.

Изменение параметра Expect threshold

С этим параметром неинтересно играть. Чем выше порог - тем больше результатов поиска. Число находок для порога 100: 619.

Изменение параметра Matrix

При использовании новой матрицы автоматически меняется значение по умолчанию параметра Gap Costs. При переходе от BLOSUM 62 к BLOSUM 90 увеличилось число находок (стало 548) и общий вес каждого из выравниваний. К тому же E-value существенно возрос. При переходе от BLOSUM 62 К BLOSUM 45 - всё наоборот.

Вернуться на главную