Оставшиеся параметры я не меняла.
Ссылка на текстовую выдачу BLAST: petase_homologues.txt.
Как видно, программа нашла только 3 потенциальных гомолога, что подтвердило мою изначальную догадку. Для множественного выравнивания я взяла их всех. По этой ссылке можно скачать результаты выравнивания: petase_alignment.jvp. Все 4 белка: собственно ПЭТаза и 3 гомолога имеют достаточно много схожих участков: с 18 по 26, 85 по 94, 105 по 112, 115 по 158, 160 по 172, 178 по 183, 191 по 212, 214 по 225, 241 по 246, 248 по 251 и 255 по 266 колонки. Это говорит о том, что они, вероятнее всего, гомологичны.
Для выравнивания я выбрала белок protease nsP2, выразанный из полипротеина Polyprotein P1234 (ID:POLN_CHIK3, AC:Q5XXP4) вируса Чикунгунья (Chikungunya virus (strain 37997)). Координаты protease nsP2 в полипротеине: с 536 по 1333 остаток. По этой ссылке доступна последовательность protease nsP2: protease_nsP2.fasta.
Параметры, которые я использовала при запуске BLAST:
Название белка | Поиск среди всех организмов | Поиск среди вирусов | Частное |
Replicase large subunit from Odontoglossum ringspot virus (isolate Korean Cy) | 6×10-14 | 2×10-15 | 30 |
Replicase large subunit from Odontoglossum ringspot virus (isolate Singapore 1) | 1×10-13 | 4×10-15 | 25 |
Replicase large subunit from Cucumber green mottle mosaic virus (watermelon strain SH) | 6×10-10 | 2×10-11 | 30 |
Replicase large subunit from Tobacco mild green mosaic virus | 1×10-7 | 5×10-9 | 20 |
Replicase large subunit from Turnip vein-clearing virus | 1×10-6 | 4×10-8 | 25 |
Replicase polyprotein 1ab from Beet yellows virus isolate Ukraine | 4×10-5 | 2×10-6 | 20 |
Replicase large subunit from Youcai mosaic virus | 4×10-5 | 2×10-6 | 20 |
Как видно из таблицы, E-value при поиске только среди вирусов в среднем в 24,3 раза меньше, чем при поиске среди всех организмов. Таким образом, чем меньше обьем банка, тем меньше E-value и достовернее результат, что, в целом, логично. Также из полученных мной данных можно сделать вывод о том, что в Swissprot примерно 4% вирусных белков (100÷24,3).
Я провела сревнение BLAST NCBI и BLAST EBI по нескольким параметрам, рассмотренным ниже.
В NCBI в отличие от EBI можно выбирать банк модельных организмов, метагеномов, а также есть база данных TSA. В NCBI можно ограничить поиск только некультивируемыми организмами. Но при этом в EBI все же больше параметров для баз данных: можно не писать название организма, как в NCBI, а сразу выбрать нужную таксономическую принадлежность, что сокращает время поиска; также есть банк протеомов и изоформ Swiss-Prot, TrEMBL, поиск по кластерам UniProt, есть и другие базы данных, которых нет в NCBI (IPD, MEROPS, ChEMBL), можно ограничить поиск белками, связанными с COVID-19, или, например, ферментами. Минус EBI заключается в том, что нельзя искать выравнивания по AC.
Таким образом, для более узких задач поиск в EBI может быть удобнее, поскольку можно более точно настроить параметры.
В NCBI помимо blastp и blastx есть tblast для поиска в базе данных транслированных нуклеотидных последовательностей. Однако в EBI для этого есть TrEMBL. В EBI можно более тонко настроить параметры: установить штрафы за открытие и за удлинение гэпов, вид выравнивания, также длина слова в EBI более вариабельная: можно самостоятельно выставить ее значение, начиная с одного, то есть EBI BLAST может быть более чувствительной программой. Также можно установить длину слова больше 6, если точность не столь важна, тогда поиск будет более быстрым.
Здесь преимущество NCBI заключается в том, что с помощью NCBI BLAST легче работать с участками малой сложности, для этого есть специальные фильтры.