В этом практикуме нас познакомили с BLAST, как нам сказали, самой востребованной программой в биоинформатике. Её мы используем через веб-интерфейс, но в следующем семестре мы будем запускать его из командной строки (он установлен на kodomo).
1. Поиск гомологов белка в базе данных SwissProt
В данной части практикума необходимо было найти гомологи "моего" белка 3L5M. Для этого была использована программа BLAST (Basic Local Alingmet Search Tool). Мне очень понравилось, что эта аббревиатура не только информативна, но ещё и складывается в слово, которое переводится, как "взрыв, импульс". Может быть это был намёк на быструю работоспособность, но сейчас это (почти) единственная программа, которая может найти в огромной современной базе данных участки локального сходства между последовательности. Для начала, я приведу таблицу с описанием параметров поиска.
Параметр поиска | Использовано | За что отвечает параметр |
---|---|---|
Enter Query Sequence (поле ввода) | Была введена аминокислотная последовательность, так как "мой" белок не из раздела Reviewed | На вход принимается один из следующих вариантов: файл(ы) ,просто последовательность(и) в формате fasta, accecion number(s), gi(s) |
Database | UniProtKB/Swiss-Prot(swissprot) | Выбор Базы данных для поиска |
Organism | - (для 1 задания) | Ограничение поиска определённым организмом |
Algorithm | blastp | Выбор алгоритма поиска. Во 2-м семестре мы будем использовать только blastp (p-protein) |
Max target sequences | 100 | Регулирует максимальное количество выданных находок |
Short queries | Yes | Разрешает автоподбор параметров в случае короткой последовательности |
Expect threshold | 10 | Задаёт верхний порог на E-value, чтобы отсечь белки, которые с минимальной вероятностью будут гомологичны данному |
Word size | 3 | Регулирует размер слова при разбиении последовательностей |
Max matches in a query range | 0 | Ограничение количества совпадений в диапазоне запросов |
Matrix | BLOSUM62 | Присваивает балл за выравнивание пар остатков и определяет общий вес выравнивания |
Gap Costs | Existence: 11 Extension: 1 | Цена за создание гэпа в выравнивании |
Compositional adjusments | Conditional compositional score matrix adjustment | Метод корректировки матрицы для компенсации аминокислотного состава последовательностей. (борьба с "участками малой сложности) |
Filter | No (low complexity regions) | Маскирует "участки малой сложности", которые могут привести к ложным или вводящим в заблуждение результатам |
Mask | No (Mask for lookup table only) and No (Mask lower case letters) | Запрос маски будет использоваться только для сканирования базы данных, но не расширения. И. Не учитывать строчные буквы. |
Таблица 1. Описание параметров поиска BLAST.
Результат запроса я сохранил в файл, так как веб страничка недолговечна и исчезнет через некоторое время.
Ссылка на проект (неотредактированный)
Я выделил свой белок, чтобы было более наглядно. Для множественного выравнивания я взял белки с очень маленьким E-value, что может свидетельствовать об их гомологичности, и последовательность с E-value 5.6. Исходя из полученных данных, можно почти с уверенностью сказать, что эта последовательность (AC = Q9NXR1) не гомологична моей. Остальные же очень схожи и, скорее всего, являются гомологичные. (Причём первые 4 более схожи друг с другом, чем с "моим" белком.)
Ссылка на проект (отредактированный)
2. Поиск в Swissprot гомологов последовательности зрелого вирусного белка SARS (AC=P0C6X7).
В данной части практикума нужно было проделать те же самые действия, но для зрелого белка, чью последовательность я получил в практикуме №9. Я не изменял параметры поиска (кроме поля ввода, конечно же). Мой белок - Helicase, с координатами 5302:5902. (файл) Затем я обрезал все буквы находок, которые находились до первой и после последней буквы, выровненной с какой-либо буквой исходного зрелого белка.
3. Исследование зависимости E-value от объёма банка
В данной части практикума, я, как понятно из названия, исследованил зависимость E-value от объёма банка. Один из самых простых способов - это как-то ограничить банк последовательностей дополнительным условием. В данном случае я ограничил запрос из предыдущего пункта (про SARS), искав только белки вирусов (Viruses (txid:10239)). Результаты я оформил в виде таблицы.
AC | E-value Before | E-value After |
---|---|---|
P0C6V8 | 2e-05 | 9e-07 |
Q9WJB2 | 5.3 | 0.22 |
Q9YN02 | 5.4 | 0.23 |
A0MD28 | 1.3 | 0.054 |
Таблица 2. Сравнение E-value некоторых последовательностей до ограничения параметром viruses и после.
Ссылка на файл выдачиКоличество результатов упало с 95, до 63. E-value уменьшился примерно на порядок. Уменьшение E-value логично, ведь E-value - это ожидаемое число случайных находок с тем же или лучше весом выравнивания, то очевидно, что при уменьшении количества вариантов, E-value также уменьшится. Используя теормеу Карлина (E-value=Kmn-λS), можно оценить долю вирусных белков в Swissprot. Так как размер банка (n) и E-value прямо пропорциональны, то достаточно лишь разделить результаты после ограничения на результаты до ограничения. Получается примерно 0,04 (в двух случаях 0,0415) или 4%.