Практикум №11

BLAST

В этом практикуме нас познакомили с BLAST, как нам сказали, самой востребованной программой в биоинформатике. Её мы используем через веб-интерфейс, но в следующем семестре мы будем запускать его из командной строки (он установлен на kodomo).

1. Поиск гомологов белка в базе данных SwissProt

В данной части практикума необходимо было найти гомологи "моего" белка 3L5M. Для этого была использована программа BLAST (Basic Local Alingmet Search Tool). Мне очень понравилось, что эта аббревиатура не только информативна, но ещё и складывается в слово, которое переводится, как "взрыв, импульс". Может быть это был намёк на быструю работоспособность, но сейчас это (почти) единственная программа, которая может найти в огромной современной базе данных участки локального сходства между последовательности. Для начала, я приведу таблицу с описанием параметров поиска.

Параметр поиска Использовано За что отвечает параметр
Enter Query Sequence (поле ввода) Была введена аминокислотная последовательность, так как "мой" белок не из раздела Reviewed На вход принимается один из следующих вариантов: файл(ы) ,просто последовательность(и) в формате fasta, accecion number(s), gi(s)
Database UniProtKB/Swiss-Prot(swissprot) Выбор Базы данных для поиска
Organism - (для 1 задания) Ограничение поиска определённым организмом
Algorithm blastp Выбор алгоритма поиска. Во 2-м семестре мы будем использовать только blastp (p-protein)
Max target sequences 100 Регулирует максимальное количество выданных находок
Short queries Yes Разрешает автоподбор параметров в случае короткой последовательности
Expect threshold 10 Задаёт верхний порог на E-value, чтобы отсечь белки, которые с минимальной вероятностью будут гомологичны данному
Word size 3 Регулирует размер слова при разбиении последовательностей
Max matches in a query range 0 Ограничение количества совпадений в диапазоне запросов
Matrix BLOSUM62 Присваивает балл за выравнивание пар остатков и определяет общий вес выравнивания
Gap Costs Existence: 11 Extension: 1 Цена за создание гэпа в выравнивании
Compositional adjusments Conditional compositional score matrix adjustment Метод корректировки матрицы для компенсации аминокислотного состава последовательностей. (борьба с "участками малой сложности)
Filter No (low complexity regions) Маскирует "участки малой сложности", которые могут привести к ложным или вводящим в заблуждение результатам
Mask No (Mask for lookup table only) and No (Mask lower case letters) Запрос маски будет использоваться только для сканирования базы данных, но не расширения. И. Не учитывать строчные буквы.

Таблица 1. Описание параметров поиска BLAST.

Результат запроса я сохранил в файл, так как веб страничка недолговечна и исчезнет через некоторое время.

Ссылка на результаты поиска

Ссылка на проект (неотредактированный)


Я выделил свой белок, чтобы было более наглядно. Для множественного выравнивания я взял белки с очень маленьким E-value, что может свидетельствовать об их гомологичности, и последовательность с E-value 5.6. Исходя из полученных данных, можно почти с уверенностью сказать, что эта последовательность (AC = Q9NXR1) не гомологична моей. Остальные же очень схожи и, скорее всего, являются гомологичные. (Причём первые 4 более схожи друг с другом, чем с "моим" белком.)

Ссылка на проект (отредактированный)


2. Поиск в Swissprot гомологов последовательности зрелого вирусного белка SARS (AC=P0C6X7).

В данной части практикума нужно было проделать те же самые действия, но для зрелого белка, чью последовательность я получил в практикуме №9. Я не изменял параметры поиска (кроме поля ввода, конечно же). Мой белок - Helicase, с координатами 5302:5902. (файл) Затем я обрезал все буквы находок, которые находились до первой и после последней буквы, выровненной с какой-либо буквой исходного зрелого белка.

Ссылка на файл выдачи

Ссылка на проект


3. Исследование зависимости E-value от объёма банка

В данной части практикума, я, как понятно из названия, исследованил зависимость E-value от объёма банка. Один из самых простых способов - это как-то ограничить банк последовательностей дополнительным условием. В данном случае я ограничил запрос из предыдущего пункта (про SARS), искав только белки вирусов (Viruses (txid:10239)). Результаты я оформил в виде таблицы.


AC E-value Before E-value After
P0C6V8 2e-05 9e-07
Q9WJB2 5.3 0.22
Q9YN02 5.4 0.23
A0MD28 1.3 0.054

Таблица 2. Сравнение E-value некоторых последовательностей до ограничения параметром viruses и после.

Ссылка на файл выдачи

Количество результатов упало с 95, до 63. E-value уменьшился примерно на порядок. Уменьшение E-value логично, ведь E-value - это ожидаемое число случайных находок с тем же или лучше весом выравнивания, то очевидно, что при уменьшении количества вариантов, E-value также уменьшится. Используя теормеу Карлина (E-value=Kmn-λS), можно оценить долю вирусных белков в Swissprot. Так как размер банка (n) и E-value прямо пропорциональны, то достаточно лишь разделить результаты после ограничения на результаты до ограничения. Получается примерно 0,04 (в двух случаях 0,0415) или 4%.