BLAST



Поиск гомолога белка в Swissprot

Было найдено 424 последовательности, которые подошли под запросы blast. Для выравнивания были выбраны 5 Триозофосфатизомераз: TPIS_HELPY;TPIS_HELPH;TPIS_HELPG;TPIS_HELPJ;TPIS_HELPS;TPIS_HELAH.
E-value ≤ 7*10^-147. Процент идентичности варьируется от 90,60 до 96,58. Процент идентичности везде 100%. Судя по проценту покрытия и проценту идентичности можно сказать, что белки между собой гомологичны.

Текстовая выдача программы blast

ссылка на проект в jalview

Таблица 1. Используемые параметры программы BLAST

Database UniprotKB/Swiss-Prot(swissprot)
Organism bacteria (taxon:2)
Algorithm blastp
Max target sequences 500
Expect threshold 0.05
Word size 6
Max matches in a query range 0
Matrix BLOSUM62
Gap Costs Existance:11, Extension:1
Matrix BLOSUM62
Compositional adjustments Conditional compositional score matrix adjustment

Гомологи зрелого вирусного белка, вырезанного из полипротеина

ID R1AB_CVHOC
AC P0C6X6 OS Human coronavirus OC43 (HCoV-OC43)

Для анализа я выбрала белок Host translation inhibitor nsp1.
Координаты: начальная - 1, конечная - 246.

С помощью данной команды была вырезана последовательность зрелого белка:
seqret sw:"R1AB"_"CVHOC"[1:246] nsp1.fasta

ссылка на файл с последовательностью

Далее был воспроизведен blast данной последовательности с такими же параметрами, как в таблице 1.

ссылка на blast данной последовательности

Для выравнивания были выбраны следующие белки: R1A_CVHOC; R1AB_CVHOC; R1A_CVBLU; R1A_CVBEN; R1A_CVBM; R1AB_CVBEN. Все белки являются гомологичными, за счет высокого процента идентичности и процента покрытия.

ссылка на выравнивание



Исследование зависимости E-value от объёма банка

E-value = m*n*2^-B
m - длина исходной последовательности, n - размер базы данных, B - вес в битах.
E-value напрямую зависит от размера базы данных.
Количество найденных последовательностей в случае с ограничением поиска по вирусу и без ограничений - одинаково. Но у последовательности изменяется значение E-value.
Без ограничений 

5e^-173 P0C6X6.1 



С ограничением 

2e^-174 P0C6X6.1

ссылка

Так как остальные параметры поиска не изменялись, то значение E-value пропорционально размеру базы данных. В связи с этим можно сказать, что в swiisprot примерно 4% вирусных белков.