Практикум №12

Описание параметров BLASTP

Поиск гомологов белка LINB_SPHJU в базе данных Swissprot

Поиск был запущен со всеми параметрами, выставленными по умолчанию, кроме Database, которая была изменена на Swissprot, и Max target sequences - 20 000.

Скачать таблицу

Для построения выравнивания были выбраны 5 белков из таблицы, один из которых - сам белок LINB_SPHJU, две - из середины таблицы, а ещё два - из самого конца с большим E-value добавлены для сравнения. В процессе построения выравнивания они были исключены, так как не являлись гомологичными. Результат выравнивания представлен на рисунке.

[Здесь должна быть картинка выравнивания]
Скачать полный проект Jalview

Карта сходства белков A8NP12_COPC7 и U1LPR7_9MICO

Из таблицы было взято два белка и по ним построена карта сходства.

[Здесь должна быть карта сходства]

По горизонтали расположен белок A8NP12_COPC7, а по вертикали - U1LPR7_9MICO. Начало горизонтального белка гомологично середине вертикального, однако далее есть отдельные участки начала вертикального, которые гомологичны середине горизонтального. Видимо в этих двух белках произошла перестановка участков в процессе эволюции. Также некоторая серединная часть вертикального белка гомологична началу и середине горизонтального, то есть там произошла дупликация. Концы обоих белков гомологичны, то есть крупных изменений в не происходило.

Игры с BLAST

Для поиска при помощи BLAST была выбрана фраза: "Listen, Morty, I hate to break it to you, but what people call love is just a chemical reaction that compels animals to breed". Изначально все параметры были выставлены на значение по умолчанию (кроме Database - Swissprot и Max target sequences - 20 000, а также была убрана галочка с параметра Short queries). При таких условиях результаты найдены не были. Тогда Expect threshold был поднят до 100, а Word size изменеён на 2. Тогда было найдено 9 результатов с разбросом E-value от 50 до 100. Такие крайне мало статистически значимые результаты совсем не удивительны, так как данная последовательность однозначно не кодирует белок.

Далее был произведён поиск по своей последовательности (белок LINB_SPHJU). Изначальные параметры были выставлены по умолчанию, кроме Database (изменена на Swissprot), Short queries (убрана галочка) и Expect threshold (изменена на 100). Было получено 55 результатов, максимальное E-value достигло 96. Если поставить значение Expect threshold на 1000, а Max target seqences на 20 000, то количество результатов вырастет до 105, а максимальное E-value - до 951. Тогда Expect threshold был повышен до 10 000 - количество результатов возросло до 288, а максимальное E-value - до 9991. Таким образом я не вижу смысла как-либо сравнивать E-value для разных сеансов поиска, так как BLAST всегда находит значения, близкие к границе, и максимальные значения остаются вне этих пределов.

Значение Expect threshold было возвращено на 10, а остальные параметры остались такими же. Количество результатов - 49. Если изменить Word size на 3, то количество результатов вырастет до 106. При Word size 2 количество результатов - 106. В принципе такое изменение ожидаемо, так как с помощью маленьких слов BLAST ищет более точно, однако, видимо, 106 - это в принципе максимальное количество результатов с таким ограничением на E-value (либо надо делать выравнивания со всеми последовательностями в базе данных, чтобы встретить ещё).

Параметр Word size был возвращён на значение 3, но взята матрица весов замен BLOSUM45 (штрафы за гэпы по умолчанию для матрицы). Было найдено 107 результатов (по сравнению с 106 у BLOSUM62). Если использовать матрицу BLOSUM90, то BLAST выдаёт только 87 результатов. Таким образом при использовании матрицы, которая строилась на основе последовательностей с меньшей схожестью, количество результатов растёт.

Далее были произведены сеансы поиска с изменением параметра Compositional adjustments (матрица - BLOSUM62). Сначала было выбрано значение No adjustment, количество результатов - 105 (по сравнению со 106 на Conditional compositional score adjustment matrix). На значении Composition-based statistics количество результатов - 97. На значении Universal compositional score matrix adjustment - 106 результатов. Таким образом о какой-либо зависимости от этого параметра говорить сложно, особенно потому что, видимо, 106 - это практически максимальное количество последовательностей, которые можно найти при данном Expected threshold.