Программа BLAST
Гомологи белка (S)-1-Phenylethanol dehydrogenase
Код доступа использовался CAI07428.1. Организм для которого находились гомологичные белки это (S)-1-Phenylethanol dehydrogenase.
База данных была выбрана UniProtKB/Swiss-Prot(swissprot) по заданию.
Максимальный размер выдачи белков был взят 100.
Ожидаемое количество случайных совпадений в случайной модели(Порог на E-value) равно 0.05.
Max matches in a query range равен 0.
Длина слова(Word size) равна 6.
Параметры выравнивания: Матрица(Matrix) была взята BLOSUM62; Gap Costs равен Existence: 11 Extension: 1.
Была получена текстовая выдача программы 9ZH66J9R013-Alignment.txt.
Было отобрано 6 организмов, чьи белки были использованы для варавнивания для выравнивания с ферментом (S)-1-Phenylethanol dehydrogenase:
- Mesorhizobium japonicum MAFF 303099
- Bacillus subtilis subsp. subtilis str. L170
- Staphylococcus epidermidis RP62A
- Thermoplasma acidophilum DSM 1728
- Vibrio cholerae O1 biovar El Tor str. N16961
- Haemophilus influenzae Rd KW20
Гомологи зрелого вирусного белка, вырезанного из полипротеина в Swissprot
ID: POLN_SAGV;
AC: Q9JGL0/Q9JGK9;
OS: Sagiyama virus (SAGV).
Был выбран зрелый белок Protease nsP2 с координатами 535-1332.
Последовательность белка дана в файле Protease_nsP2seq.fasta.
Загружен был выше указанный файл с последовательностью зрелого белка Protease nsP2.
База данных была выбрана UniProtKB/Swiss-Prot(swissprot) по заданию.
Максимальный размер выдачи белков был взят 100.
Ожидаемое количество случайных совпадений в случайной модели(Порог на E-value) равно 0.05.
Max matches in a query range равен 0.
Длина слова(Word size) равна 2.
Параметры выравнивания: Матрица(Matrix) была взята BLOSUM62; Gap Costs равен Existence: 11 Extension: 1.
Была получена текстовая выдача программы A358NWWT01N-Alignment.txt.
Были отобраны организмы, чьи белки были использованы для выравнивания с зрелым вирусным белком POLN_SAGV:
- Getah virus
- Ross river virus (STRAIN NB5092)
- Semliki Forest virus
- Chikungunya virus strain Senegal 37997
- Ockelbo virus
- Aura virus
Выравнивание последовательностей белков выбранных организмов с зрелым белком POLN_SAGV находится в файле Alignment-8.jvp. При редактировании выравнивания в Jalview были удалены все буквы находок, которые находились до первой и после последней буквы, выровненной с какой-либо буквой исходного зрелого белка.
Зависимость E-value от объёма банка
При поиске без фильтра organism:"Viruses" рузультат поиска 69 последовательностей, при использовании фильтра organism:"Viruses" результат тот же 69 последовательностей. Если через фильтр ещё убрать последовательности с E-value 0.0, результат будет 44 последовательности. Если это сделать в фильтре organism:"Viruses", результат тоже 44 последовательности. Получается, что список находок не изменился с применением фильтра.
При постановке фильтра "Viruses" показатель E-value у белка организма Odontoglossum ringspot virus
(isolate Singapore 1) снизился с 6e-13 до 3e-14.
Используя теорему Карлина была оценена доля вирусных белков в Swiss-Prot. Формула, которой высчитывается E-value: E-value = K * m * n * e-λ * S
;
S – вес выравнивания; m – длина исходной последовательности; n – размер базы данных; K и λ – две константы.
Для получения размера бызы данных формулу нужно привести к этому виду:n = E-value / (K * m * e−λ * S)
.
Сделаем допущение, что в обоих поисках K и λ одинаковы, доля вирусных белков в Swiss-Prot по суммарной длине равна
nвир / nобщ = E-valueвир * K * mобщ * e−λ * S / (E-valueобщ * K * mвир * e−λ * S) = E-valueвир / E-valueобщ = 3e-14 / 6e-13 = 0.05
.
Доля вирусных белков в Swiss-Prot составляет 5%.