Чтобы найти гомологи белка L-малил коА/B-метилмалил-коА лиазы(AC: Q3J5L6) использовались следующие параметры при запуске BLAST:
Enter Query Sequence: P20586 (AC белка).
Database: UniProtKB/Swiss-Prot(swissprot).
Algorithm: blastp (protein-protein BLAST).
Max target sequences: 100
Expect threshold: 0.05
Word size: 6
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension: 1
Compositional adjustments: Conditional compositional score matrix adjustment.
Filter: Low complexity regions
Выдача программы в формате текстаA3PGR7.1 и B6E2X2.1 гомологичны. a9wc35.1, a4wnm9.1 - были исключены из выравнивания из-за малого количества совпадений. Схожесть белков A3PN16.1, B9KNB6.1, [ P17725.2 с исходным - уже не так видна на выравнивании. Три перечисленных белка чаще сходятся по аминокислотным остаткам между собой, чем с исходным белком или с B6E2X2.1 ссылка на скачивание проекта Jalview
Информация о выбранном полипротеине:
id: POLN_CHIK3
AC: Q5XXP4
название вируса: Chikungunya virus (strain 37997) (CHIKV).
Выбранный зрелый белок(chain): "mRNA-capping enzyme nsP1” с координатами [1:535]
c помощью программы seqret из EMBOSS "ключ" был вырезан из полипротеина в отдельный файл fasta-формата (ссылка на скачивание). Проделав ту же самую последовательность действий, что и в первом задании, но со “зрелым белком”, получено следующее множественное выравнивание :ссылка на скачивание проекта Jalview
Повторив предыдущий запрос (из задания 2) и добавив фильтр по организмам поиск ограничился до вирусов.
Список находок не изменился по сравнению с предыдущим поиском. Но значения для белков с исходно ненулевыми e-value изменились: для Q8QL53.1.1 3e-136 → 1e-137 — уменьшилось в 30 раз. Q8JJX1.1 2e-135 → 7e-137 уменьшилось в 28,5
Поскольку E-value зависит от размера банка (чем больше банк, тем больше E-value), а вес, длина исходной последовательности —те же, то вирусные белки составляют 1/30 от всех белков в swissprot, т.е 3,33%.