Для задания последовательности был использован Accession Nnumber соответствующей записи в UniProtKB. Для поиска гомологов данной фосфоноацетальдегиддегидрогеназы в Swiss-Prot был использован алгоритим blastp, основанный на построении локального выравнивания. С текстовой выдачей blastp можно ознакомиться по ссылке.
Algorithm parameters
Таблица 1. General parameters
Matrix target sequences
Short queries
Expect threshold
Word size
Max matches in a query range
50
true
0.05
6
0
Таблица 2. Scoring Parameters
Matrix
Gap costs
Compositional adjustments
BLOSUM62
Existence: 11 Extension: 1
Conditional compositional score matrix adjustment
Таблица 3. Filters and Masking
Low complexity regions
Mask for lookup table only
Mask lower case letters
true
false
false
Было выбрано 7 последовательностей белков вероятно гомологичных данному белку для множественного выравнивания посредством алгоритма MUSCLE. Выбранные белки оказались гомологичными данному и имели сходную с ним функцию: все 8 являлись дегидрогеназами. Большая часть последовательностей с N-конца (до 45-й позиции выравнивания), а также небольшая с С-конца (с 526-й по 535-ю позицию) были негомологичны, что ожидаемо, если учитывать низкую консервативность этих участков в связи с их второстепенной структурной ролью.
Гомологи зрелого вирусного белка, вырезанные из полипротеина
В UniProt по запросу organism:sars-cov polyprotein AND reviewed:yes был найден Replicase polyprotein 1a вируса SARS-CoV. Для исследования была выбрана 3C-like proteinase. Непосредственно вырезанный фрагмент доступен по ссылке.
Таблица 4. Данные о фрагменте выбранного полипротеина
Полное имя
Организм
ID
AC
Имя фрагмента
Position
Replicase polyprotein 1a
Severe acute respiratory syndrome coronavirus (SARS-CoV)
R1A_SARS
P0C6U8
3C-like proteinase
3241–3546
Algorithm parameters
Таблица 5. General parameters
Matrix target sequences
Short queries
Expect threshold
Word size
Max matches in a query range
50
true
0.05
6
0
Таблица 6. Scoring Parameters
Matrix
Gap costs
Compositional adjustments
BLOSUM62
Existence: 11 Extension: 1
Conditional compositional score matrix adjustment
Таблица 7. Filters and Masking
Low complexity regions
Mask for lookup table only
Mask lower case letters
true
false
false
Для построения множественного выравнивания с помощью blastp было выбрано 5 последовательостей. Поиск был осуществлен без фильтра по организмам. С текстовой выдачей blast можно ознакомиться по ссылке. Все последовательности оказались крайне консервативными, и большую часть выравнивания составляли плюс-блоки. Фрагменты, соответствующие выбранному ранее почти полностью с ним совпадали, что свидетельствует о крайней консервативности исследуемого белка. Выравнивание выбранных полипротеинов с выбранным фрагментом доступно по ссылке. Исследуемый фрагмент занимает позиции с 3244 по 3549.
Исследование зависимости E-value от объема банка
Для оценки доли вирусных последовательносте был осуществлен дополнительный поиск, ограничивающийся только таксоном вирусов (TaxID: 10239). Е-value находки AWV67070.1 без ограничения поиска (не считая исключения последовательностей, относящихся к данному виду) составил 3e-102, а с ограничением на таксон вирусов он составил 3e-104. Таким образом, согласно теореме Карлина, доля вирусных последовательностей - порядка 1e-2. Это отношение второго E-value к первому.