Программа BLAST

1. Нахождение гомологов белка в Swissprot

GenBank code CAA74299.1
Job Title CAA74299:pyrrolidone carboxyl peptidase [Thermococcus...
Database UniProtKB/Swiss-Prot(swissprot)
Organism -
Exclude -
Algorithm blastp (protein-protein BLAST)
Max target sequences 250 (изменено, чтобы посмотреть точное количество найденных выравниваний, так как при 100 выдаётся максимум)
Expect threshold 0.05
Short queries Automatically adjust parameters for short input sequences
Word size 6
Max matches in a query range 0
Matrix BLOSUM62
Gap Costs Existence: 11 Extension: 1
Compositional adjustments Conditional compositional score matrix adjustment
Filter -
Mask -
Таблица 1. Параметры, которые были использованы при запуске BLAST.

Текстовая выдача программы

Ссылка на проект Jalview

Для построения множественного выравнивания были выбраны 6 последовательностей (AC: Q9UYQ9, O58321, O73944, A7GQB6, Q7NT84, C1F026) с минимальными значением E-value парного выравнивания из всех найденных программой.

По результатам программы и дальнейшего множественного выравнивания выбранных последовательностей можно однозначно заключить, что рассматриваемые белки гомологичны. Процент идентичности варьируется в пределах 42.92-64.71% при покрытии 92-96%, что говорит об очень большом сходстве.

2. Нахождение гомологов зрелого вирусного белка, вырезанного из полипротеина

Мною был выбран белок Spike glycoprotein E2 (координаты 329..751), который вырезается из полипротеина Frameshifted structural polyprotein (p130) вируса лихорадки Синдбис.

ID: POLSF_SINDV; DE: Frameshifted structural polyprotein; AC: P0DOK0; OC: Sindbis virus (SINV).

Вырезанная последовательность доступна по ссылке.

Поиск в BLAST проводился с теми же параметрами, что обозначены в Таблице 1, за исключением того, что на вход программе был дан fasta-файл с вырезанной последовательностью.

Текстовая выдача программы

Ссылка на проект Jalview

Cтоит отметить, что было найдено 4 парных выравнивания для нашего белка, E-value которых составил 0.0, но их мы не рассматривали. Для множественного выравнивания были выбраны 5 последовательностей со следующими AC: P03316, Q306W7, P36331, P17517, P36332, P08491. Во всех случаях покрытие составило 99-100%, а процент идентичности более 39.95%. В множественном выравнивании значительное число столбцов имеют одинаковые или схожие аминокислоты. Всё это говорит о большой вероятности гомолологичности данных белков.

3. Исследование зависимости E-value от объёма банка

Ради эксперимента был проведён еще один поиск в BLAST, но на этот раз был выставлен фильтр по таксонам (Viruses). Так, видно, что значения E-values выравниваний стали другими. В частности, для последовательности Q8JJX0 ранее оно было равно 7e-32, а с фильтром по таксонам 3e-33. Известно, что параметр E-value рассчитывается по следующей формуле, где m–длина исходной последовательности; n–размер базы данных; B - вес в битах: $$ E-value = mn 2^{-B} $$

Так, число записей в базе данных прямо пропорционально E-value. Найдём отношение полученных значений, чтобы определить процент вирусных белков по длине в SwissProt.

$$ {3*10^{-33} \over 7*10^{-32}} 100 \% \approx 4\% $$

4. Поиск "гомологов" бессмысленной последовательности

Для этого задания мною использовалась данная последовательность, основой для которой послужил отрывок из "Божественной комедии" Данте. При первом запуске программы с параметрами по умолчанию не нашлось ни одного подходящего выравнивания, что не удивительно, так как BLAST ищет результаты с E-value менее 0.05. Если повысить данный параметр, к примеру, до 10, то находится уже 5 последовательностей с минимальным значением E-value 1.9, что явно указывает на то, что мы имеем дело не с гомологами. При этом значения покрытия и идентичности у такого выравнивания не очень уж и низкие: 66% и 34.34% соответственно.

Текстовая выдача программы