Программа BLAST
Гомологи белка TcdB в Swiss-Prot
Параметры, которые были использованы при запуске BLAST:
- Database: UniProtKB/Swiss-Prot(swissprot)
- Algorithm: blastp (protein-protein BLAST)
- Max target sequences: 100
- Automatically adjust parameters for short input sequences: no
- Expect threshold: 10
- Word size: 3
- Max matches in a query range: 0
- Matrix: BLOSUM62
- Gap Costs: Existence: 11, Extension: 1
- Compositional adjustments: Conditional compositional score matrix adjustment
- Filter: Low complexity regions – no
- Mask: Mask for lookup table only – yes; Mask lower case letters – no
Было найдено 100 последовательностей (с текстовой выдачей программы можно ознакомиться по ссылке)
Было отобрано 5 находок, затем проведено множественное выравнивание (ознакомиться с ним можно по ссылке), белков, не гомологичных моему, не оказалось. Гомологичность этих пяти белков можно обосновать наличием заметных консервативных участков.
Гомологи зрелого вирусного белка, вырезанного из полипротеина
Я нашла в Swiss-Prot полипротеин с ID – POLN_EEEV1; AC – Q306W6; OS – Eastern equine encephalitis virus (strain PE-0.0155) (EEEV) (Eastern equine encephalomyelitis virus), затем выбрала зрелый белок mRNA-capping enzyme nsP1, его координаты: 1..533. Последовательность белка в формате FASTA можно найти по ссылке
Параметры, которые были использованы при запуске BLAST:
- Database: UniProtKB/Swiss-Prot(swissprot)
- Algorithm: blastp (protein-protein BLAST)
- Max target sequences: 100
- Automatically adjust parameters for short input sequences: no
- Expect threshold: 10
- Word size: 3
- Max matches in a query range: 0
- Matrix: BLOSUM62
- Gap Costs: Existence: 11, Extension: 1
- Compositional adjustments: Conditional compositional score matrix adjustment
- Filter: Low complexity regions – no
- Mask: Mask for lookup table only – no; Mask lower case letters – no
Было найдено 100 последовательностей (с текстовой выдачей программы можно ознакомиться по ссылке)
Было отобрано 5 находок, затем проведено множественное выравнивание (ознакомиться с ним можно по ссылке). В выравнивании полностью отсутствуют инсерции и делеции (гэпы), также есть протяженные участки абсолютной консервативности (например, 330-379 колонки) - это демонстрирует консервативность данных белков. Полноразмерные края всех находок идеально совпали с границами исходного белка, поэтому ручное удаление концевых фрагментов не потребовалось.
Исследование зависимости E-value от объёма банка
Я повторила предыдущий поиск, оставив те же параметры BLAST, но ограничила поиск вирусами. Список находок изменился, так как исчезли невирусные белки. Затем для исследования зависимости E-value от объема базы данных я выбрала гомологичную последовательность белка с AC Q8QL53.1, получила такие данные:
- В поиске по всему банку Swiss-Prot: E(1) = 1e-126
- В поиске с фильтром только по вирусам: E(2) = 6e-128
Видно, что значение E-value во втором поиске уменьшилось. Рассчитав соотношение E(2)/E(1), я оценила долю вирусных белков в Swiss-Prot, которая для данной находки составила 6% от общего объема банка данных.