GenBank code | CAA74299.1 |
Job Title | CAA74299:pyrrolidone carboxyl peptidase [Thermococcus... |
Database | UniProtKB/Swiss-Prot(swissprot) |
Organism | - |
Exclude | - |
Algorithm | blastp (protein-protein BLAST) |
Max target sequences | 250 (изменено, чтобы посмотреть точное количество найденных выравниваний, так как при 100 выдаётся максимум) |
Expect threshold | 0.05 |
Short queries | Automatically adjust parameters for short input sequences |
Word size | 6 |
Max matches in a query range | 0 |
Matrix | BLOSUM62 |
Gap Costs | Existence: 11 Extension: 1 |
Compositional adjustments | Conditional compositional score matrix adjustment |
Filter | - |
Mask | - |
Для построения множественного выравнивания были выбраны 6 последовательностей (AC: Q9UYQ9, O58321, O73944, A7GQB6, Q7NT84, C1F026) с минимальными значением E-value парного выравнивания из всех найденных программой.
По результатам программы и дальнейшего множественного выравнивания выбранных последовательностей можно однозначно заключить, что рассматриваемые белки гомологичны. Процент идентичности варьируется в пределах 42.92-64.71% при покрытии 92-96%, что говорит об очень большом сходстве.
Мною был выбран белок Spike glycoprotein E2 (координаты 329..751), который вырезается из полипротеина Frameshifted structural polyprotein (p130) вируса лихорадки Синдбис.
ID: POLSF_SINDV; DE: Frameshifted structural polyprotein; AC: P0DOK0; OC: Sindbis virus (SINV).
Вырезанная последовательность доступна по ссылке.
Поиск в BLAST проводился с теми же параметрами, что обозначены в Таблице 1, за исключением того, что на вход программе был дан fasta-файл с вырезанной последовательностью.
Cтоит отметить, что было найдено 4 парных выравнивания для нашего белка, E-value которых составил 0.0, но их мы не рассматривали. Для множественного выравнивания были выбраны 5 последовательностей со следующими AC: P03316, Q306W7, P36331, P17517, P36332, P08491. Во всех случаях покрытие составило 99-100%, а процент идентичности более 39.95%. В множественном выравнивании значительное число столбцов имеют одинаковые или схожие аминокислоты. Всё это говорит о большой вероятности гомолологичности данных белков.
Так, число записей в базе данных прямо пропорционально E-value. Найдём отношение полученных значений, чтобы определить процент вирусных белков по длине в SwissProt.
$$ {3*10^{-33} \over 7*10^{-32}} 100 \% \approx 4\% $$