Blast

Практикум 5. Программа BLAST

Выравнивание ПЭТазы и ее гомологов

При запуске BLAST я использовала следующие параметры:

Database: UniProtKB/Swiss-Prot(swissprot).
Algorithm: blastp (protein-protein BLAST).
Max target sequences: 100. ПЭТаза - нераспространенный белок, так что не имеет смысла менять этот параметр.
Expect threshold: 0,05. Опять же, поскольку ПЭТаза не очень распространена, скорее всего, у нее не так много гомологов. Так что я оставила значение параметра 0,05, чтобы найти как можно больше потенциальных гомологичных белков. Увеличивать порог E-value я также не стала, потому что при большем его значении результат может быть недостоверным.
Word size: 2. Когда я искала гомологичные белки при длине слова равной 6, нашлось всего 2 гомолога, так что я решила уменьшить длину слова.

Оставшиеся параметры я не меняла.
Ссылка на текстовую выдачу BLAST: petase_homologues.txt. Как видно, программа нашла только 3 потенциальных гомолога, что подтвердило мою изначальную догадку. Для множественного выравнивания я взяла их всех. По этой ссылке можно скачать результаты выравнивания: petase_alignment.jvp. Все 4 белка: собственно ПЭТаза и 3 гомолога имеют достаточно много схожих участков: с 18 по 26, 85 по 94, 105 по 112, 115 по 158, 160 по 172, 178 по 183, 191 по 212, 214 по 225, 241 по 246, 248 по 251 и 255 по 266 колонки. Это говорит о том, что они, вероятнее всего, гомологичны.

Выравнивание зрелого вирусного белка и его гомологов

Для выравнивания я выбрала белок protease nsP2, выразанный из полипротеина Polyprotein P1234 (ID:POLN_CHIK3, AC:Q5XXP4) вируса Чикунгунья (Chikungunya virus (strain 37997)). Координаты protease nsP2 в полипротеине: с 536 по 1333 остаток. По этой ссылке доступна последовательность protease nsP2: protease_nsP2.fasta.

Параметры, которые я использовала при запуске BLAST:

Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 100
Expect threshold: 0.05
Word size: 6

Не перечисленные выше параметры я оставила неизменными.
Ссылка на текстовую выдачу BLAST: protease_nsP2_homologues.txt.
Как видно по множественному выравниванию: protease_nsP2_alignment.jvp, все 8 белков: protease nsP2 и белки, найденные с помощью BLAST, очень хорошо выровнялись. Видно, что у последовательностей большой процент идентичных участков, из чего можно сделать вывод, что она гомологичны.

Исследование зависимости E-value от объёма банка

Я повторила тот же запрос в BLAST с protease nsP2, но на этот раз применила фильтр по организмам, ограничив поиск только вирусами. В таблице ниже я выписала значения E-value всех белков, у которых оно поменялось, чтобы увидеть зависимость E-value от объёма банка.

Таблица. Значение E-value при поиске с фильтром по организмам и без
Название белка	Поиск среди всех организмов	Поиск среди вирусов	Частное
Replicase large subunit from Odontoglossum ringspot virus (isolate Korean Cy)	6×10^-14	2×10^-15	30
Replicase large subunit from Odontoglossum ringspot virus (isolate Singapore 1)	1×10^-13	4×10^-15	25
Replicase large subunit from Cucumber green mottle mosaic virus (watermelon strain SH)	6×10^-10	2×10^-11	30
Replicase large subunit from Tobacco mild green mosaic virus	1×10^-7	5×10^-9	20
Replicase large subunit from Turnip vein-clearing virus	1×10^-6	4×10^-8	25
Replicase polyprotein 1ab from Beet yellows virus isolate Ukraine	4×10^-5	2×10^-6	20
Replicase large subunit from Youcai mosaic virus	4×10^-5	2×10^-6	20

Как видно из таблицы, E-value при поиске только среди вирусов в среднем в 24,3 раза меньше, чем при поиске среди всех организмов. Таким образом, чем меньше обьем банка, тем меньше E-value и достовернее результат, что, в целом, логично. Также из полученных мной данных можно сделать вывод о том, что в Swissprot примерно 4% вирусных белков (100÷24,3).

Сравнение интерфейсов BLAST

Я провела сревнение BLAST NCBI и BLAST EBI по нескольким параметрам, рассмотренным ниже.

Выбор баз данных

В NCBI в отличие от EBI можно выбирать банк модельных организмов, метагеномов, а также есть база данных TSA. В NCBI можно ограничить поиск только некультивируемыми организмами. Но при этом в EBI все же больше параметров для баз данных: можно не писать название организма, как в NCBI, а сразу выбрать нужную таксономическую принадлежность, что сокращает время поиска; также есть банк протеомов и изоформ Swiss-Prot, TrEMBL, поиск по кластерам UniProt, есть и другие базы данных, которых нет в NCBI (IPD, MEROPS, ChEMBL), можно ограничить поиск белками, связанными с COVID-19, или, например, ферментами. Минус EBI заключается в том, что нельзя искать выравнивания по AC.
Таким образом, для более узких задач поиск в EBI может быть удобнее, поскольку можно более точно настроить параметры.

Возможность выбора параметров

В NCBI помимо blastp и blastx есть tblast для поиска в базе данных транслированных нуклеотидных последовательностей. Однако в EBI для этого есть TrEMBL. В EBI можно более тонко настроить параметры: установить штрафы за открытие и за удлинение гэпов, вид выравнивания, также длина слова в EBI более вариабельная: можно самостоятельно выставить ее значение, начиная с одного, то есть EBI BLAST может быть более чувствительной программой. Также можно установить длину слова больше 6, если точность не столь важна, тогда поиск будет более быстрым.
Здесь преимущество NCBI заключается в том, что с помощью NCBI BLAST легче работать с участками малой сложности, для этого есть специальные фильтры.

Поиск "гомологов" бессмысленной последовательности

В качестве последовательности для выравнивания я взяла отрывок из стихотворения Поля Валери «Морское кладбище». Поиск проводила в базе данных Swiss-Prot, из параметров я меняла только количество находок. Без пробелов, знаков препинания и букв, не обозначающих аминокислот, получилась следующая последовательность длтиной в 30 аминокислотных остатков (это максимально возможная длина): leventseleveilfattenterdevivre.
Для такого запроса нашлось как минимум 5000 результатов. Что неудивительно, вес у всех выравниваний оказался довольно низким (не больше 31,6), а E-value высоким (наименьшее значение - 0,35; только у пяти выравниваний E-value ниже единицы). Также в большинстве случаев длина выровненных участков была очень небольшой. Это можно обьяснить тем, что мой запрос бессмысленный, соответственно если находки и есть, то они, естественно, случайны. Необычным было то, что встречалось много выравниваний, у которых суммарный вес мог превышать максимальный почти в два раза. Это также обьясняется бессмысленностью запроса: оптимальное выравнивнивание случайно и неудивительно, что есть еще неплохие случайные выравнивания помимо него, тем более что все они достаточно короткие.