Практикум 11. Программа BLAST

Поиск гомологичных Q9K4U1 белков

Для поиска гомологичных белков была использована программа BLAST с параметрами запуска: база данных поиска - "Swiss-Prot", отображать до 1000 последовательностей, с E-value не более 0.001, при использовании блоков по 3 аминокислотных остатка (word size=3), остальные без изменений.

Всего было обнаружено 145 последовательностей, все их можно назвать гомологичными, т.к. парное выравнивание имеет E-value меньшее или равное, чем 0.001. Текстовый файл поиска и выравнивания можно просмотреть по ссылке. Среди них для множественного выравнивания были выбраны 5 с наибольшим весом и процентом идентичности. Fasta файлы их последовательностей можно просмотреть по ссылкам 1, 2, 3, 4, 5.

Так как максимальное E-value выравнивания с исходными белком составляет 1e-115, что много меньше 0.001, поэтому можно сделать вывод, что все пять белков гомологичны данному, а следовательно, гомологичны между собой. Проект мульти-выравнивания можно скачать по ссылке. Визуализация представлена на рисунке 1.

мульти-выравнивание белков с мнемоникой UDP
Рис 1. Мульти-выравнивание белков с мнемоникой UDP

Поиск гомологичных РНК-направленной РНК полимеразе белков

Исходный белок является частью полипротеина с кодом доступа P0C6X7 и представляет собой аминокислоты с 3241 по 3546 включительно. Из описания белка следует, что он отвечает за репликацию и транскрипцию вирусного РНК генома.

Способ поиска аналогичен таковому в первом пункте: веб-интерфейс программы BLAST, ищущей по базе данных данных "Swiss-Prot" без ограничения по таксономии, не более 1000 записей, ожидаемый порог E-value не более 0.001, и выравнивание по тройкам аминокислотных остатков.

В результате были выявлены 56 гомологичных последовательностей, среди которых и данный полипептид с абсолютным совпадением с его же частью. Поэтому во избежание избыточности из 8 наиболее похожих по общему счету белков для проведения множественного выравнивания были выбраны 7. Fasta файлы их последовательностей можно просмотреть по ссылками 1, 2, 3, 4, 5, 6, 7.

E-value всех белков относительно исходной последовательности настолько малы, что отображаются равными нулю, потому все эти былки можно назвать гомологичными. Вычисление парных выравниваний при множественном выравнивании в проекте Jalview дополнительно подтверждает это, потому как минимальный процент идентичности составляет 98.69% .Визуализация представлена на рисунке 2.

Предварительно в проекте были вырезаны все аминокислоты до 3241 и после 3546, чтобы все работы относились непосредственно к последовательсти белка, а не ко всему полипептиду.

мульти-выравнивание с белком из вируса SARS-CoV
Рис 2. мульти-выравнивание с белком из вируса SARS-CoV

Исследование зависимости E-value от объёма банка

Для демонстрации изменения E-value в зависимости от объема банка были выполнены два одинаковых поисковых запроса, первый по всей Swiss-Prot, второй только по таксону "Вирусы". Количество найденных белков не изменилось, но все E-value уменьшились.

Так как E-value рассчитывается по формуле E-value = kmn*e-λs, в пределах одной базы данных все значения букв в формуле, кроме n, постоянны. Поэтому грубо оценить долю вирусов от всей Swiss-Prot можно поделив E-value второго запроса на E-value первого.

Для этого были взяты первые пять записей с изменившимся E-value, результаты представлены в таблице.

Таблица 1. Частные от деления пяти пар E-value
1, % 2, % 3, % 4, % 5, %
4.29 5.00 4.00 5.00 6.00

Итого среднее значение составляет примерно 4.86%. Таким образом, E-value уменьшилось более, чем в 20 раз из-за того, что объем банка вирусов составляет около 4.86% от объема всей Swiss-Prot.

Сравнение дефолтных параметров запуска у алогоритмов BLAST в NCBI и EBI

Все данные были получены с соответствующих страниц NCBI и EBI. Так, максимальное количество отображаемых записей для NCBI составляет 100, а для EBI 50 (Alignments [50]). Максимальное значение допустимое E-value у сервисов совпадает (Expect threshold [10]), равно как и "размер слова" для индексирования (Word size [6]) и матрица подсчета веса ([BLOSUM62]). В то же время штрафы за гэпы на порядок отличаются ([10] за открытие и [1] за продолжение у NCBI, против [1] как за открытие, так и за продолжение у EBI). Отличаются и методы настройки состава - у NCBI используется настройка условной композиционной матрицы весов ([Conditonal compositional score matrix adjustment]), в то время как у EBI по-умолчанию не используется основанная на композиции статистика ([No composition-based statistics]). Фильтр учаcтков со скудным составом аминокислот (low complexity regions) в NCBI проводится, а в EBI - нет, при этом по-умолчанию NCBI ничего не маскирует, а EBI может. Данные рассуждения продублированы в таблице 2.

Таблица 2. Сравнение дефолтных параметров запуска BLAST сервисов NCBI и EMBL
Наименование NCBI BLAST EBI BLAST
Макс. число отображаемых записей 100 50
Expect threshold 10 10
Word size 6 6
Default matrix BLOSUM62 BLOSUM62
Gap open penalty 10 1
Gap extension penalty 1 1
Compositonal statistics + -
Low complexity regions Excluded Included
Masking - +

По всем этим параметрам NCBI хотя бы не хуже, чем EBI. Так, относительно низкий штраф за открытие гэпа и отсутствие афинного штрафа за продолжение делает более весомыми выравнивания с множеством инделей в случае EBI, что позволит найти больше последовательностей, но худшего качества. В то же время количество выдаваемых записей в 2 раза меньше, а значит, в комбинации с предыдущим параметром, теоретически могут потерятся выравнивания с хорошим качеством. Аналогично, фильтр участков низкой сложности (со скудным составом) делает алгоритм NCBI более предпочтительным по сравнению с EBI.

Поиск "гомологов" бессмысленной последовательности

С помощью питона можно сгенерировать случайную последовательность:

python3
Python 3.6.4 (default, Aug 28 2018, 14:09:28)
[GCC 4.6.3] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> from random import choice
>>> s='GALMFWKQESPVICYHRNDTBJOUXZ'
>>> print(''.join([choice(s) for i in range (50)]))
HWICZEGLFWBOPPXARECPUHIUFZMFAKETZCGWERWWDIDTZBMYEA

Эта случайная последовательность была выровнена с помощью веб-интерфейса NCBI BLAST. Для расширения банка был использована база данных NR, а для получения дополнительных результатов "размер слова" индексирования понижен до 2, остальные параметры изменены не были.

Но даже все эти приготовления позволили обнаружить лишь 3 предположительно гомологичные последовательности, одна даже с E-value=0.079, что при иных обстоятельствах могло заставить проверять гомологию. Вторая половина этого выравнивания даже теоретически могла быть косервативным блоком. Эта последовательность относится к шипастому скату, в то время как остальные две относятся к оомицетам. В случае последних двух выравниваний совпадения расположены равномерно и, очевидно, случайно. Текстовую выдачу веб-интерфейса можно просмотреть по ссылке.

Малое количество похожих последовательностей вполне ожидаемо, как и предупреждение о замене посторонних символов в верхней части выдачи. Но относительно сконцентрированное количество совпадений в первом выравнивании было неожиданно, предположительно все совпадения должны были быть распространены равномерно.