Работа в BLAST

Поиск гомологов

Выдача программы в текстовом формате доступна по ссылке. Для дальнейшего анализа были выбраны последовательности со следующими INSDC CDS: Q88NN6.1, Q888H1.1, P55579.1, P55584.1, P55294.2, Q9S642.1, Q8PDW5.1. С помощью программы 'muscle' они были выравнены, получившееся выравнивание было отредактировано с помощью программы 'Jalview'. Проект доступен по ссылке.

Все белки гомологичны друг другу, так как имеют достаточно много консервативных участков (например, с 52 столбца по 65, с 179 по 185, с 281 по 288).
Таблица 1. Описание параметров поиска
Accession number AAK90243.2
Database UniProtKB/Swiss-Prot(swissprot)
Organism Proteobacteria (taxid:1224)
Algorithm blastp (protein-protein BLAST)
Expect threshold 10
Word size 3
Matrix BLOSUM62
Gap Costs Existence: 11
Extension: 1
Compositional adjustments Conditional compositional score matrix adjustment
Filter Low complexity regions

Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина

Таблица 2. Информация о полипротеине вируса Aura virus, взятая из UniProt
AC Q86924
ID POLN_AURAV
Рекомендуемое название Polyprotein P1234
Информация о выбранном зрелом белке
Название Protease nsP2
Координаты 540...1345
Последовательность указанного в таблице зрелого белка была вырезана из последовательности всего полипротеина. Далее производился поиск гомологичных белков с параметрами, идентичными таковым в табл.1, но без ограничения по принадлжености организма к какому-либо таксону. Были выбраны белки со следующими INSDC CDS: Q84133.2, P89659.2, P69514.1, P90211.1, Q05983.1. Проект доступен по ссылке.

Вывод: все выбранные белки гомологичны исходному в силу наличия большого количества консервативных и сходных участков (колонки 942-949, 993-1001, 1004-1053 и др.).

Зависимость E-value от размера банка

Таблица 3. Разность в значении E-value для белка RDRP_RBDVR
All organisms 2е-08
Viruses only 7e-10
Как можно видеть из таблицы, чем больше размер банка, тем выше вероятность встретить случайную находку с таким же и лучшим весом выравнивания. Таким образом, доля вирусных белков в Swiss-Prot будет равна 7e-10/2e-08 = 0.035 или 3.5%.