Последовательность была взята из базы данных Uniprot: A0AAN4RIM1_9ENTE.
Параметры при запуске BLAST:
То есть были выбраны поиск по swissprot и алгоритм blastp c максимальным количеством находок 1000, автоматической настройкой алгоритма на короткие запросы, пороговым уровнем e-Value 0.05 и размером слова 5 (длина элемента, иницирующего выравнивание). Для борьбы с участками малой сложности были выбраны следующие параметры: метод матричной корректрировки для компенсации аминокислотного состава последовательности (дефолтный параметр) и фильтр, скрывающий участки низкой сложности.
BLAST выдал 181 находку.
Ссылка на результат работы BLAST: Текстовая выдача BLASTP.
Для множественного выравнивания были взяты послеовательности UvrA из следующих организмов Tetragenococcus koreensis (запрос), Streptococcus pneumoniae, Streptococcus mutans, Streptococcus pyogenes, Clostridium tetani, Yersinia pestis, Agrobacterium fabrum, Rickettsia bellii.
Множественое выравнивание было сделано с помощью программы Muscle. Среди всех белков можно заметить множество консерватинвых участков, что может говорить о гомологичности всех белков.
Ссылка на выравнивание: Множественное выравнивание UvrA.
Для анализа был взят полипротеин (ID: POLS_AURAV, AC: Q86925, ссылка: Structural polyprotein) из Aura virus.
Один из белков, который входит в состав полипротеина, это Spike glycoprotein E1 (координаты: 807..1244).
Последовательность белка: Spike glycoprotein E1 from Aura virus.
BLASTP был запущен с теми же параметрами, что и в предыдущем задании.
BLASTP выдал 31 находку, одна из них это сам Spike glycoprotein E1 из Aura virus.
Ссылка на результат работы BLAST: Текстовая выдача BLASTP.
Для множественного выравнивания были взяты белки из Sindbis virus, Ockelbo virus, Western equine encephalitis virus, Eastern equine encephalitis virus, Venezuelan equine encephalitis virus, Barmah Forest virus, Ross river virus и сама последовательность запроса из Aura virus.
Множественое выравнивание было сделано с помощью программы Muscle. Среди всех белков есть консервативные участки, все белки выравнялись по всей длине (по всей длине гликопротеина, а не незрелого полипротеина), поэтому белки можно считать гомологичными.
Ссылка на выравнивание: Множественное выравнивание вирусных спайковых гликопротеинов Е1.
Для оценки доли вирусных белков можно сравнить E-value для запроса BLASTP по swissprot без ограничения по таксону и с выбором поиска только в таксоне Viruses.
Accession | E-value для запроса по всему swissprot | E-value для запроса только по таксону Viruses | Уменьшение E-value |
---|---|---|---|
Q4QXJ7.1 | 1e-164 | 6e-166 | 16.67 |
Q306W5.1 | 6e-157 | 3e-158 | 20.00 |
Q306W7.1 | 5e-156 | 2e-157 | 25.00 |
P27284.1 | 2e-153 | 6e-155 | 33.33 |
P08768.1 | 2e-153 | 9e-155 | 22.22 |
Среднее: | 23.44 |
Так как при ограничении поиска в одном таксоне E-value уменьшалось в среднем в 23.44 раза и так как E-value линейно зависит от размера базы данных, можно сказать, что вирусные белки занимают приблизительно 4.27% от всей базы данных.
К достоинствам интерфейса можно отнести удобное окно ввода, с возможностью выбран диапозон последовательности, большой выбор различных баз данных, по которым будет идти поиск, возможность исключать некоторые таксоны из поиска, большой выбор алгоритмов (Quick BLASTP, blastp, PSI-BLAST, PHI-BLAST, DELTA-BLAST) и тонкая настройка параметров алгоритмов, которые рассмотрены в первом номере этого практикума. Также есть полезная опция сделать запрос не по базе данных, а по другой последовательности или файлу.
Интерфейс предлагает множество форматов выдачи: текстовую, в виде html-страницы и др., а также предаставляет различные характеристики посика, базы данных и Karlin-Altschul statistics. Также форматы выдачи предоставляют подробные характеристики всех выравниваний.
Существенных недостатков нет. Лишь то, что при вводе данных BLAST не узнает ID белков.
UniProt предлагает минималистический интерфейс с практически минимальными настройками. Так как в большинстве случаев тонкая настройка параметров алгоритма не является необходимой, то можно назвать это плюсом. Также достоинством является то, что для каждого найденного белка предаставлена его запись на UniProtKB. Существенными минусами можно назвать: малое число баз данных, низкую скорость работы алгоритма, нельзя загрузить файл с последовательностью.
Оба интерфейса "user-friendly", на сайте NCBI предоставлен интерфейс с огромным числом тонких настроек многих алгоритмов и баз данных, что прекрасно подходит для поиска гомологов, обнаружения филогенетических связей, консервативных доменов и т.д (и для дальнейшей работы с ними). А на сайте UniProt предоставлен простой интерфейс, хорошо подходящий для поиска белка по последовательности и некоторым свойствам (можно выбрать фильтры в окне Blast parameters) и дальнейшего изучения этого белка.
Для создания бессмылсенной последовательности использовалась фраза из "Гарри Поттера" "I solemnly swear that I am up to no good", из которой были удалены пробелы и буквы O,U.
Последовательность: ISLEMNLYSWEARTHATIAMPTNGD
Следующие параметры BLASTP были изменены: word size с 5 на 2, expect threshold на 10.
Поиск по базе данных non-redundant protein sequences (nr) )не выдал находок, а по базе данных UniProtKB/Swiss-Prot (swissprot) выдал одну с e-value 8.6, score 25.0 bits(53).
Если expect threshold поднять до 100, будет 25 находок по swissprot и 0 по nr. Значения е-value следующие: 8.6 (1, из первого запроса) и 31 (2), 42 (3), 57 (5), 58 (2), 78 (5), 79 (7); в скобках указано сколько находок с таким e-value.
Если expect threshold поднять до 1000, то по swissprot будет 242 находки, а по nr 18, e-value исчисляется сотнями.
Как и ожидалось, с ростом expect threshold увеличилось число находок, а находок по nr было меньше, потому что e-value линейно зависит от размера базы данных, и чем она больше, тем выше нужно поднимать порог.