Практикум 10

Гомологи белка в Swiss-Prot

Для белка из практикума 7 не было найдено гомологов при разных параметрах, поэтому был выбран другой белок: Riboflavin biosynthesis protein RibBA. Он также является белком бактерии Oceanithermus profundus.

Для поиска гомологов использовались следующие параметры BLAST: Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 1000
Short queries: yes
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no

Было найдено 100 гомологичных последовательностей (ссылка на текстовую выдачу программы).

Были отобраны 7 предполагаемых гомологов и проведено множественное выравнивание. Все белки были оставлены, т.к. они содержат много участков высокой гомологии.

Гомологи зрелого вирусного белка, вырезанного из полипротеина

Для задания 2 был выбран вирус Replicase polyprotein 1a.

ID: R1A_BCRP3
AC: P0C6T7; Q3I5J6;
OS: Bat coronavirus Rp3/2004 (BtCoV/Rp3/2004) (SARS-like coronavirus Rp3).

Был найден зрелый белок 3C-like proteinase nsp5, 3239..3544.

Последовательность этого белка была вырезана средствами EMBOSS. Далее с помощью BLAST с использованием таких же параметров, как в 1 задании, были найдены гомологи этого белка (ссылка на текстовую выдачу программы).

Было отобрано 8 последовательностей предполагаемых гомологов и проведено множественное выравнивание с помощью программы muscle -align corona.fasta -output corona_alignment.fasta. В полученном выравнивании все белки имеют большое количество консервативных колонок на протяжении всей длины белков, также в выравнивании практически нет гэпов, что свидетельствует о гомологичности выбранных белков.

Исследование зависимости E-value от объёма банка

Был проведен поиск гомологов для той же последовательности с использованием фильтра по организмам (Viruses). У некоторых последовательностей E-value не изменилось, но, например, для одной из последовательностей значение E-value изменилось с 4е-148 на 2e-149 (уменьшилось, т.е. улучшилось). Оценить долю вирусных белков в базе Swiss-Prot можно по отношению этих значений, так как при поиске с фильтром по организмам изменяется только размер выборки. Таким образом, доля вирусных белков в базе Swiss-Prot примерно равна (4е-148):(2e-149) = 5 %.