Для поиска гомологичных белков была использована программа BLAST с параметрами запуска: база данных поиска - "Swiss-Prot", отображать до 1000 последовательностей, с E-value не более 0.001, при использовании блоков по 3 аминокислотных остатка (word size=3), остальные без изменений.
Всего было обнаружено 145 последовательностей, все их можно назвать гомологичными, т.к. парное выравнивание имеет E-value меньшее или равное, чем 0.001. Текстовый файл поиска и выравнивания можно просмотреть по ссылке. Среди них для множественного выравнивания были выбраны 5 с наибольшим весом и процентом идентичности. Fasta файлы их последовательностей можно просмотреть по ссылкам 1, 2, 3, 4, 5.
Так как максимальное E-value выравнивания с исходными белком составляет 1e-115, что много меньше 0.001, поэтому можно сделать вывод, что все пять белков гомологичны данному, а следовательно, гомологичны между собой. Проект мульти-выравнивания можно скачать по ссылке. Визуализация представлена на рисунке 1.
Исходный белок является частью полипротеина с кодом доступа P0C6X7 и представляет собой аминокислоты с 3241 по 3546 включительно. Из описания белка следует, что он отвечает за репликацию и транскрипцию вирусного РНК генома.
Способ поиска аналогичен таковому в первом пункте: веб-интерфейс программы BLAST, ищущей по базе данных данных "Swiss-Prot" без ограничения по таксономии, не более 1000 записей, ожидаемый порог E-value не более 0.001, и выравнивание по тройкам аминокислотных остатков.
В результате были выявлены 56 гомологичных последовательностей, среди которых и данный полипептид с абсолютным совпадением с его же частью. Поэтому во избежание избыточности из 8 наиболее похожих по общему счету белков для проведения множественного выравнивания были выбраны 7. Fasta файлы их последовательностей можно просмотреть по ссылками 1, 2, 3, 4, 5, 6, 7.
E-value всех белков относительно исходной последовательности настолько малы, что отображаются равными нулю, потому все эти былки можно назвать гомологичными. Вычисление парных выравниваний при множественном выравнивании в проекте Jalview дополнительно подтверждает это, потому как минимальный процент идентичности составляет 98.69% .Визуализация представлена на рисунке 2.
Предварительно в проекте были вырезаны все аминокислоты до 3241 и после 3546, чтобы все работы относились непосредственно к последовательсти белка, а не ко всему полипептиду.
Для демонстрации изменения E-value в зависимости от объема банка были выполнены два одинаковых поисковых запроса, первый по всей Swiss-Prot, второй только по таксону "Вирусы". Количество найденных белков не изменилось, но все E-value уменьшились.
Так как E-value рассчитывается по формуле E-value = kmn*e-λs, в пределах одной базы данных все значения букв в формуле, кроме n, постоянны. Поэтому грубо оценить долю вирусов от всей Swiss-Prot можно поделив E-value второго запроса на E-value первого.
Для этого были взяты первые пять записей с изменившимся E-value, результаты представлены в таблице.
1, % | 2, % | 3, % | 4, % | 5, % |
---|---|---|---|---|
4.29 | 5.00 | 4.00 | 5.00 | 6.00 |
Итого среднее значение составляет примерно 4.86%. Таким образом, E-value уменьшилось более, чем в 20 раз из-за того, что объем банка вирусов составляет около 4.86% от объема всей Swiss-Prot.
Все данные были получены с соответствующих страниц NCBI и EBI. Так, максимальное количество отображаемых записей для NCBI составляет 100, а для EBI 50 (Alignments [50]). Максимальное значение допустимое E-value у сервисов совпадает (Expect threshold [10]), равно как и "размер слова" для индексирования (Word size [6]) и матрица подсчета веса ([BLOSUM62]). В то же время штрафы за гэпы на порядок отличаются ([10] за открытие и [1] за продолжение у NCBI, против [1] как за открытие, так и за продолжение у EBI). Отличаются и методы настройки состава - у NCBI используется настройка условной композиционной матрицы весов ([Conditonal compositional score matrix adjustment]), в то время как у EBI по-умолчанию не используется основанная на композиции статистика ([No composition-based statistics]). Фильтр учаcтков со скудным составом аминокислот (low complexity regions) в NCBI проводится, а в EBI - нет, при этом по-умолчанию NCBI ничего не маскирует, а EBI может. Данные рассуждения продублированы в таблице 2.
Наименование | NCBI BLAST | EBI BLAST |
---|---|---|
Макс. число отображаемых записей | 100 | 50 |
Expect threshold | 10 | 10 |
Word size | 6 | 6 |
Default matrix | BLOSUM62 | BLOSUM62 |
Gap open penalty | 10 | 1 |
Gap extension penalty | 1 | 1 |
Compositonal statistics | + | - |
Low complexity regions | Excluded | Included |
Masking | - | + |
По всем этим параметрам NCBI хотя бы не хуже, чем EBI. Так, относительно низкий штраф за открытие гэпа и отсутствие афинного штрафа за продолжение делает более весомыми выравнивания с множеством инделей в случае EBI, что позволит найти больше последовательностей, но худшего качества. В то же время количество выдаваемых записей в 2 раза меньше, а значит, в комбинации с предыдущим параметром, теоретически могут потерятся выравнивания с хорошим качеством. Аналогично, фильтр участков низкой сложности (со скудным составом) делает алгоритм NCBI более предпочтительным по сравнению с EBI.
С помощью питона можно сгенерировать случайную последовательность:
python3 Python 3.6.4 (default, Aug 28 2018, 14:09:28) [GCC 4.6.3] on linux Type "help", "copyright", "credits" or "license" for more information. >>> from random import choice >>> s='GALMFWKQESPVICYHRNDTBJOUXZ' >>> print(''.join([choice(s) for i in range (50)])) HWICZEGLFWBOPPXARECPUHIUFZMFAKETZCGWERWWDIDTZBMYEA
Эта случайная последовательность была выровнена с помощью веб-интерфейса NCBI BLAST. Для расширения банка был использована база данных NR, а для получения дополнительных результатов "размер слова" индексирования понижен до 2, остальные параметры изменены не были.
Но даже все эти приготовления позволили обнаружить лишь 3 предположительно гомологичные последовательности, одна даже с E-value=0.079, что при иных обстоятельствах могло заставить проверять гомологию. Вторая половина этого выравнивания даже теоретически могла быть косервативным блоком. Эта последовательность относится к шипастому скату, в то время как остальные две относятся к оомицетам. В случае последних двух выравниваний совпадения расположены равномерно и, очевидно, случайно. Текстовую выдачу веб-интерфейса можно просмотреть по ссылке.
Малое количество похожих последовательностей вполне ожидаемо, как и предупреждение о замене посторонних символов в верхней части выдачи. Но относительно сконцентрированное количество совпадений в первом выравнивании было неожиданно, предположительно все совпадения должны были быть распространены равномерно.