Программа BLAST

Гомологи белка (S)-1-Phenylethanol dehydrogenase

Код доступа использовался CAI07428.1. Организм для которого находились гомологичные белки это (S)-1-Phenylethanol dehydrogenase. База данных была выбрана UniProtKB/Swiss-Prot(swissprot) по заданию.
Максимальный размер выдачи белков был взят 100.
Ожидаемое количество случайных совпадений в случайной модели(Порог на E-value) равно 0.05.
Max matches in a query range равен 0.
Длина слова(Word size) равна 6.
Параметры выравнивания: Матрица(Matrix) была взята BLOSUM62; Gap Costs равен Existence: 11 Extension: 1. Была получена текстовая выдача программы 9ZH66J9R013-Alignment.txt.

Было отобрано 6 организмов, чьи белки были использованы для варавнивания для выравнивания с ферментом (S)-1-Phenylethanol dehydrogenase:

Находки содержатся в файле seqdump.txt. Из выравнивания не было удалено ни одного белка, так как ни один белок в базе Swiss-Prot не является гомологом ферменту (S)-1-Phenylethanol dehydrogenase, удаление не имело бы смысла. Выбранные белки были самыми близкими по идентичности(не более 41%), но и они не являтся гомологами. Это подтверждает факт, что только в бактерии Aromatoleum aromaticum (strain EbN1) протекает реакция окисления (S)-1-фенилэтанола до ацетофенона. Эта реакция особенность именно бактерии Aromatoleum aromaticum (strain EbN1).Файл с выравниванием доступен по ссылке Alignment-7.jvp

Гомологи зрелого вирусного белка, вырезанного из полипротеина в Swissprot

ID: POLN_SAGV;
AC: Q9JGL0/Q9JGK9;
OS: Sagiyama virus (SAGV).
Был выбран зрелый белок Protease nsP2 с координатами 535-1332.
Последовательность белка дана в файле Protease_nsP2seq.fasta.
Загружен был выше указанный файл с последовательностью зрелого белка Protease nsP2.
База данных была выбрана UniProtKB/Swiss-Prot(swissprot) по заданию.
Максимальный размер выдачи белков был взят 100.
Ожидаемое количество случайных совпадений в случайной модели(Порог на E-value) равно 0.05.
Max matches in a query range равен 0.
Длина слова(Word size) равна 2.
Параметры выравнивания: Матрица(Matrix) была взята BLOSUM62; Gap Costs равен Existence: 11 Extension: 1.
Была получена текстовая выдача программы A358NWWT01N-Alignment.txt.

Были отобраны организмы, чьи белки были использованы для выравнивания с зрелым вирусным белком POLN_SAGV:

Находки содержатся в файле seqdump2.txt
Выравнивание последовательностей белков выбранных организмов с зрелым белком POLN_SAGV находится в файле Alignment-8.jvp. При редактировании выравнивания в Jalview были удалены все буквы находок, которые находились до первой и после последней буквы, выровненной с какой-либо буквой исходного зрелого белка.

Зависимость E-value от объёма банка

При поиске без фильтра organism:"Viruses" рузультат поиска 69 последовательностей, при использовании фильтра organism:"Viruses" результат тот же 69 последовательностей. Если через фильтр ещё убрать последовательности с E-value 0.0, результат будет 44 последовательности. Если это сделать в фильтре organism:"Viruses", результат тоже 44 последовательности. Получается, что список находок не изменился с применением фильтра.

При постановке фильтра "Viruses" показатель E-value у белка организма Odontoglossum ringspot virus
(isolate Singapore 1) снизился с 6e-13 до 3e-14. Используя теорему Карлина была оценена доля вирусных белков в Swiss-Prot. Формула, которой высчитывается E-value: E-value = K * m * n * e-λ * S; S – вес выравнивания; m – длина исходной последовательности; n – размер базы данных; K и λ – две константы. Для получения размера бызы данных формулу нужно привести к этому виду:n = E-value / (K * m * e−λ * S). Сделаем допущение, что в обоих поисках K и λ одинаковы, доля вирусных белков в Swiss-Prot по суммарной длине равна nвир / nобщ = E-valueвир * K * mобщ * e−λ * S / (E-valueобщ * K * mвир * e−λ * S) = E-valueвир / E-valueобщ = 3e-14 / 6e-13 = 0.05.
Доля вирусных белков в Swiss-Prot составляет 5%.