Blast protein

Гомологи UDP-2,3-diacylglucosamine pyrophosphatase LpxI

  1. Параметры запуска
  2. Database Algorithm Organism
    refseq protein blastp (protein-protein BLAST) none
    General parameters
    Max target sequences Expect threshold Word size
    100 0.05 6
    Scoring Parameters
    Matrix Gap Costs Compositional adjustments
    100 Existence: 11, Extension: 1 Conditional compositional score matrix adjustment
    Filter: Low complexity regions

  3. Результаты
  4. Здесь находится ссылка на выдачу программы.

    C помощью программы Blast были найдены гомологичные белки для моего белка. При запросе был установлен низкий порог E-Value, благодаря чему в выдаче скорее всего находятся потенциально гомологичные последовательности. Изначально была выбрана база данных Swiss-Prot, но при данных параметрах были найдены только две находки, поэтому я выбрал базу данных RefSeq. Были выбраны 5 находок и выравнены с последовательностью моего белка в программе Jalview c помощью алгоритма Muscle ( ссылка на скачивание проекта). Данное выравнивание говорит о возможной гомологичности данных белков, т.к. присутствуют большое количество широких высоконсервативных участков.

    Гомологи зрелого вирусного белка, вырезанного из полипротеина.

    По результатам поиска вирусных белков в Uniprot был выбран полипротеин Murine coronavirus. Затем выбран зрелый белок в поле FT c координатами 4014-4207. Данная последовательность была направлена на запрос в программе Blast с теми же параметрами, что и в первом задании за исключением параметра word-size здесь я значение поменял на 2. Выдача программы находится по ссылке. Из выдачи были выбраны 5 находок и провыедено с ними и с нашим запросом множественное выравнивание в JalView. В выравнивании присутствуют множество консервативных участков, например, 38-44, 52-63, 84-90, 180-184, 127-132. Таким образом, можно предположить, что данные участки полипротеинов являются гомологичными. Выравнивание можно скачать по ссылке.
    Полипротеин Murine coronavirus
    UniProt ID R1AB_CVMA5
    UniProt AC P0C6X9; O39225; O39226; P16342; P19750;
    Organism Murine coronavirus (strain A59) (MHV-A59) (Murine hepatitis virus)
    UniProt ID R1AB_CVMA5
    Координаты белока, вырезанного из полипротеина
    Начало 4014
    Конец 4207
    Последовательность вырезанного из полипротеина белка ссылка

    Исследование зависимости E-value от объёма банка.

    При применении фильтра по организмам (Viruses), количество находок не изменилось, тем не менее E-value многих находок изменилось. Для вычисления доли белков была взята находка с AC P0C6V0.1. По теореме С.Карлина: E-value=K*m*n*(e^(-λ * S)). Без филтра его E-value было равно 7e-127, после стало 3e-128. Соотвенственно доля вирусных белков в UniProtKB/SwissProt:

    n(вирусных)/n(общих) = E-value(вирусных)/E-value(общих) = 3e-128/7e-127*100 = 4,29%