База, по которой производился поиск гомологов: UniProtKB; Expect treshold: 0.1, чтобы были найдены белки, подходящие под условия задания (E-value не равно 0); количество белков, которые будут искаться: 250; матрица выравнивания: BLOSSUM62; Штраф за открытие инделя/продолжение: 11/1; Размер слов: 3.
Белки, которые были отобраны для этого задания имели E-value больше 0, и все были гомологичные, так как в выравнивании имели общие консервативные участки.
Последовательности гомологичны, так как имеют общие блоки, например с 473 колонки по 485, а удаленные таких колонок не имели.
Для задания я выбрал Spike protein S1 from Spike glycoprotein (ID: SPIKE_BCHK4; AC: A3EX94; OS: Bat coronavirus HKU4 (BtCoV) (BtCoV/HKU4/2004)). Аминокислоты с 13 по 746 из Spyke glycoprotein.
Фрагмент белка в формате fastaПараметры для программы BlastP:
Database: swiss-prot
Max target sequences: 100
Expect treshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap costs: Existence - 11, Extension - 1
Compositional adjustments: Conditional compositional score matrix adjustment
Всего находок 31, для построения выравнивания я выбрал первые восемь.
В проекте Jalview я покрасил выравнивания Clustal by Conservation (100%), и я смог найти много достоверных блоков, которые говорят о гомологичности.
Хотя достоверных блоков много, абсолютно консервативные колонки не по всей длине, что свидетельствует о том, что последовательности изменялись в следствие мутаций.
Для задания я выбрал белок Spike glycoprotein, HKU1
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 5000
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Всего находок: 50
C фильтром на организмы: 3е-157
Без фильтра на организмы:1е-158
Применение фильтра на вирусы незначительно изменило параметр E-value (с 1е-158 до 3е-157), Изменение E-value (хоть и остающееся крайне низким, но также указывает на высокую достоверность совпадения) может быть связано с уменьшением размера базы данных после фильтрации. Доля вирусных организмов: 1е-158\3е-157=0.03 или 3%