BLAST

Знакомство с BLAST

В данном практикуме требуется найти гомологов своего белка в базе данных Swissprot при помощи сервиса BLASTp.

Ход работы

При помощи BLAST были найдены сходные с моим белком (Lactate racemase) последовательности в базе данных SwissProt.

Заданные при запуске BLAST параметры:

Параметр

Значение

Смысл

Accession number ABC45135.1 Accession number - код доступа данной последовательности в NCBI.
Database UniProtKB/Swiss-Prot(swissprot) База данных, для поиска последовательностей
Organism - С помощью этого параметра можно ограничивать находки последовательностей по их принадлежности к определённым таксонам организмов
Max target sequences 2000 Максимальное количество находок сходных последовательностей
Short queries Автоматическая настройка параметров для коротких входных последовательностей
Expect threshold 100 Ограничение сверху на значение E-value
Word size 2 Длина слова из исходной последовательности, которое ищется в других последовательностях банка и которое инициирует выравнивание с этими последовательностями
Max matches in a query range 0 Ограничивает количество находок, убирая середине значеия, что даёт возможность увидеть более слабые совпадения
Matrix BLOSUM62 Выбор матрицы весов замен
Gap Costs Existence: 11 Extension: 1 Штраф за наличие и продолжение инделя (разрыва)
Compositional adjustments Conditional composition score matrix adjustment Метод корректировки матрицы, подстраивающий её под определённую аминокислотную последовательность
Filter low complexity regions - Маскировка участков низкой сложности
Mask for lookup table only - Применение маски только на начальном этапе поиска совпадений, но не при расширении выравнивания
Mask lower case letters - Маскирует строчные буквы у входной последовательности

Результаты осуществления поиска совпадающих последовательностей с помощью BLASTp приведены в таблице Exel

Далее было построено множественное выравнивание с выбранными из этого списка последовательностями, которые приведены на листе "Selected". Отбирались белки, имеющие большее покрытие, но с сильно различающимися значениями E-value, из начала, середины и конца списка. Даже не смотря на то, что эти последовательности имеют нехудшее покрытие, а их E-value отличается всего на несколько единиц (в отличие от E-value первых двух последовательностей, которое отличается на 162 порядка), по результатом выравнивания можно предположить, что они не гомологичны исходной последовательности. С помощью программы jalview выравнивание было визуализированно. Из выравнивания пришлось убрать две последние последовательности, так как они чаще всего выпадали из общего сходства. Скачать отредактированное выравнивание.

hits
Исходное выравнивание. Отличие двух последних строк очевидно.

hits
Отредактированное выравнивание

Карта локального сходства двух белков

Чтобы составить карту локального сходства в BLAST необходимо активировать опцию "Align two or more sequences". Для этого задания были взяты два белка: B8P6F4 и F4RBD6. Параметру "Word size" было задано значение 3.

hit matrix
Карта локального сходства белков B8P6F4 и F4RBD6.

Карта показала впечатляющее сходство. На ней изображена практически непрерывная линия, что говорит о близком родстве данных белков. Об этом свидетельствуют и другие характеристики: вес выравнивания превышает максимальный, а E-value составляет 4e-08. Однако покрытие составляет всего 40%.

На карте также можно увидеть дублирующийся участок в вертикальной последовательности (B8P6F4), что говорит о произошедшей дупликации.

Игры с BLAST

В данном задании проводился поиск по случайной небелковой последовательности. Мной была введена следующая последовательность: "GHHJKXKGZVOPAKGJFHGJKKXHVKJVNRNICMXHJDKDNFFFKCNYNCSKALNAU".

Изменённые параметры поиска:

Параметр

Значение

Database UniProtKB/Swiss-Prot(swissprot)
Max target sequences 2000
Expect threshold 50
Word size 6

Скачать таблицу находок

По-моему, моя последовательность оказалась не такой уж и откланяющейся:

① Минимальное E-value составило 0.077

② Процент идентичности достиг 55.56%

③ Максимальный вес составил всего 32.3

④ А максимальное покрытие 85%

⑤ Всего 20 находок

В поиске небелковой последовательности большое значение имеет параметр длины слова. Было предположение, что, так как "небелковой" последовательность делает именно сочетание букв, и, следовательно, чем оно длиннее, тем менее вероятно, что оно встретится в белковой последовательности, но почему-то на практике это не полностью подтвердилось: при изменении длины слова с 2 на 3 количество находок увеличелось на семь последовательностей, при изменении на 6 оно составило 5 последовательностей.

При изменении в первичных параметрах только матрицы весов замен на PAM250 количество находок сократилось до 17, минимальный E-value поднялся до 3.4, вес упал до 27.2, выровнялись новые последовательности.

При поиске последовательности в другом банке модельных организмов landmark, были найдены 18 последовательностей, все граничные значения находок остались теми же, что и в банке , кроме минимального E-value, он составил 0.091 и максимального процента идентичности, он понизился на 12.08%.

Поиск последовательности своего белка в Swiss-Prot

Здесь необходимо изменять параметры BLAST и сделать выводы об этих параметрах на основании полученных результатов.

В поиске небелковой последовательности большое значение имеет параметр длины слова.

Будем изменять параметры по очереди и смотреть как изменяются число находок и E-value.

Database

Число находок

Минимальное E-value

UniProtKB/Swiss-Prot(swissprot) 67 0.0
Model Organizms (landmark) 105 ссылка на таблицу находок 0.0, скачёк после второй послеовательности также большой, но не на 162 порядка, а на 11

Organism

- 67 0.0
Homo sapiens neanderthalensis (taxid:63221) 1 ссылка на таблицу находок 0.63 (Osteocalcin)

Expect threshold

100 67 0.0
50 34, изменилось только количество находок, ссылка на таблицу находок 0.0, скачёк такой же

Word size

2 67 0.0
6 10 ссылка на таблицу находок 0.0, скачёк тот же

Max matches in a query range

0 67 0.0
5 11 ссылка на таблицу находок 0.0, скачёк тот же, уменьшилось количество последовательностей со средним значением

Matrix

BLOSUM62 67 0.0
PAM250 94 ссылка на таблицу находок 0.0, скачёк на 156 порядка

Мы видим, что параметр Word size снова сильно ограничил количество находок, E-value изменилось незначительно. Как и предпологалось, параметр "Max matches in a query range" ограничил количество находок, но не их последовательность. База данных, в которой искались последовательности, тоже играет важную роль при получении результатов поиска: сильно изменилисть и E-value, и количество находок. Ограничение на отношение к разным таксонам организмов, сократило количество сходных последовательностей до 1. Матрица весов замен изменила несущественно оба значения и отобрала новые последовательности.

Назад

Главная страница