Программа BLAST

Гомологи триптофан-2,3-диоксигеназы

Табл. 1. Параметры поиска
Параметры поиска
DatabaseNon-redundant protein sequences (nr)
Organismнет ограничений
Algorithmblastp (protein-protein BLAST)
Max target sequences100
Expect threshold10
Word size6
MatrixBLOSUM62
Gap CostsExistence 11 Extension 1

Текстовый документ с результатами поиска: 9ZYC5FBN01N-Alignment.txt

Для выравнивания были выбраны триптофан-2,3-диоксигеназы видов рода Cupriavidus: C. metallidurans, C. pauculus, C. necator, C. numazuensis, C. taiwanensis, C. alkaliphilus, C. lacunae. Данные белки безусловно гомологичны, т.к. большонство позиций в множестенном выравнивании полностью идентичны.

Ссылка на проект Jalview: tdo1.jvp

Гомологи вирусного белка

Табл. 2. Характеристики вирусного белка
Protein NameIDACНазвание вируса
Gag polyprotein   GAG_MLVAV   P03336 AKV murine leukemia virus (AKR (endogenous) murine leukemia virus)

Для дальнейших действий был выбран зрелый белок — RNA-binding phosphoprotein p12, с координатами: 130..214.

Ссылка на последовательность в формате fasta: segment.fasta

Табл. 3. Характеристики вирусного белка
Параметры поиска
DatabaseNon-redundant protein sequences (nr)
Organismнет ограничений
Algorithmblastp (protein-protein BLAST)
Max target sequences100
Expect threshold10
Word size6
MatrixBLOSUM62
Gap CostsExistence 11 Extension 1

Текстовый документ с результатами поиска: 9ZZHZ73501N-Alignment.txt

Для выравнивания были выбраны putative gag protein (Murine leukemia virus), glyco-gag polyprotein (Mus musculus), gag polyprotein (Ecotropic murine leukemia virus), Gag polyprotein(Finkel-Biskis-Jinkins murine sarcoma virus), gag-fos fusion protein (Finkel-Biskis-Jinkins murine sarcoma virus), Gag polyprotein (Radiation murine leukemia virus), gag (Murine AIDS virus-related provirus).

Все белки практически идентичны.

Ссылка на проект Jalview: virus.jvp

Исследование зависимости E-value от объёма банка

Если провести поиск с параметрами из предыдущего пункта, но с ограничением по вирусами (Viruses), то список находок уменьшится со 100 до 94, также изменятся значения E-value. Так для putative gag polyprotein (Murine leukemia virus) E-value увеличилось с 2E-048 до 9E-047. Значение E-value зависит от размера базы данных линейно, поэтому мы можем примерно оценить долю вирусных белков среди non-redundant protein sequences: 2E-048/9E-047=0.02.