В данном практикуме несколько раз проводится поиск с помощью BLAST. Параметры, по которым запускался поиск перечислены в
Таблице 1.
Во всех заданиях, кроме третьего, ограничений по организмам не устанавливается.
Таблица 1. Параметры поиска BLAST.
Параметр |
Что было выбрано |
Почему |
Max target sequences: |
100 |
Показать только первые 100 результатов, потому что сейчас не нужно много последовательностпй |
Database |
UniProtKB/Swiss-Prot(swissprot) |
Искать гомологи по Swiss-Prot |
Algorithm |
blastp |
Искать гомологи только среди белковых последовательностей |
Word size |
2 |
Наибольшая чувствительность поиска, чтобы пропустить как можно меньше гомологов |
Filter |
✓ Low complexity regions |
Исключить участки низкой сложности, потому что они сильно увеличивают вес выравнивания, но совсем не свидетельствуют о гомологии |
Поиск гомологов для белка 5P2O
Белок эндотиапепсин из
Cryphonectria parasitica. Поиск производился по его UniProt AC
P11838. Выдачу можно посмотреть
здесь. Как видно, было найдено много потенциальных гомлогов с очень маленькими E-value. Выберем для выравнивания три белка из разных грибов, один из курицы, один из шпорцевой лягушки (
выдача BLAST только с этими белками). У всех этих белков E-value меньше, чем 10
-10, поэтому есть вероятность что все они окажутся гомологами.
Выравнивание было проведено с помощью Jalview, результат можно видеть ниже, проект можно скачать
здесь.
По вырваниванию видно, что белки не очень похожи в первой четверти, но далее имеют довольно много участков сходства и мало гэпов. Стоит отметить, что все эти белки являются ферментами, катализирующими гидролиз белков, что тоже намекает на общее происхождение. Таким образом, все шесть белков, скорее всего, гомологичны друг другу.
Поиск гомологов для одного из зрелых белков вируса MERS
Была выбрана последовательность, полученная в
практикуме 9, а именно последовательность вирусной РНК-Полимеразы, имеющей координаты 4378-5310.
Последовательность была взята из материалов того же практикума. Выдачу BLAST можно посмотреть
здесь. Рассмотрим
5 вирусных белков с большим разбросом по E-value.
Вырванивание проведём с помощью Jalview. Результат представлен ниже, а проект доступен
здесь.
Из первоначального выравнивания были удалены последовательности Q04561.3, Q9YN02.3, поскольку они очень сильно отличались от оставшихся четырёх, что очень мешало судить о какой-либо гомологии.
Как видно из выравнивания, Q9WQ76 оказался в три раза меньше остальных белков, а P0C6V7, наоборот, заметно длиннее всех остальных. Тем не менее, в том месте, где есть остатки белка Q9WQ76, содержится мало гэпов и присутствует довольно много консервативных колонок. После этого участка для оставшихся трёх белков наблюдается похожая картина. Это может быть признаком гомологии. К тому же, эти белки выполняют одну и ту же функцию, что тоже может быть следствием общего происхождения этих белков.
Исследование зависимости E-value от объема банка
Проведём такой же, как и в прошлом задании, поиск, но поставим ограничение по организмам: будем искать только по вирусам. Текстовый файл с выдачей BLAST доступен по
ссылке. Посмотрим на первое «ненулевое» E-value (белок Q9WQ77) в обеих выдачах. Без ограничения по организмам оно составляет 8×10
-170, а с ограничением — 3×10
-171.
Обычно E-value считается по теореме карлина, а именно:

В формуле K, λ — некоторые константы, n — размер банка последовательностей, m — длина запроса и S — вес выравнивания.
Заметим, что в нашем случае из всех параметров отличается только размер банка последовательностей: n
1 — это размер всего банка Swiss-Prot, а n
2 — только вирусные белки Swiss-Prot. Доля вирусных белков среди всех белков Swiss-Prot равняется отношению n
2/n
1, и составляет:

Таким образом, доля вирусных белков в базе данных Swiss-Prot составляет примерно 4%.
Поиск "гомологов" числа Пи
Переводить последовательность цифр в белковую последовательность будем следующим образом: смотрим на число получаемое из каждого нечётного символа и следующего за ним. Берём остаток при делении на 20 этого числа, и ставим каждому из 20 возможных остатков одну аминокислоту.
Напишем небольшой
скрипт на Python3 (Он с расширением .txt, чтобы можно было просмотреть в браузере, потому что иначе он автоматически скачивается), взяв
отсюда какое-то количество знаков числа Пи. Запустив скрипт, получили нужную
последовательность.
Проведём поиск этой «гомологов» этой последовательности с помощью BLAST, отключив опцию Low complexity regions, чтобы увеличить шанс найти что-нибудь. Выдачу можно посмотреть
здесь.
Ожидалось, что будет очень мало находок с очень маленьким покрытием запроса. Так и получилось: всего 2 находки, с покрытиями 9% и 13%. Учитывая маленькие веса получившихся выравниваний, E-value получилось очень большим.
Попробуем уменьшить последовательность в 10 раз. Вернее, будем искать только по первым 104 буквам в нашей последовательности. Ожидается, что будет найдено чуть больше последовательностей, потому что вероятность найти маленький кусочек больше, чем большой. Само собой, покрытие запроса тоже должно увеличиться(даже если количество «использованных» букв останется тем же, они будут составлять бóльшую долю от всей последовательности).
Итак, вот
выдача. Неожиданно, получилась всего одна находка, зато с покрытием 58%. Локальное выравнивание с найденной последовательностью выглядит неплохо: 34% Identities, всего 2 индели. Похоже, эта последовательность гомологична числу Пи. Конечно, в шуточном смысле, потому что сама по себе последовательность полученная из числа Пи не имеет никакого биологического смысла.