Практикум 10. Программа BLAST

Гомологи белка Ketol-acid reductoisomerase (NADP(+)) белка в Swiss-Prot

Поскольку ни одного белка моей бактерии нет в базе данных Swiss-Prot, я выбрала белок Ketol-acid reductoisomerase (NADP(+)), он относится к Leptospira borgpetersenii serovar Hardjo-bovis (strain L550), то есть к родственной бактерии (UniProt AC Q056H8).

При запуске BLAST были заданы следующие параметры:

Основные параметры
Рисунок 1. Параметры, использованные при запуске BLAST
Algorithm parameters
Рисунок 2. Параметры, открывающиеся при нажатии Algorithm parameters

Текстовая выдача такого запроса в BLAST: Текстовая выдача программы

Также было сделанно множественное выравнивание изучаемого белка и 7 первых в выдаче BLAST

Проект Jalview

В выравнивании я оставила все 8 последовательностей, поскольку есть участки, которые имеют полностью совпадающие аминокислоты (26-34, 129-141, 178-198, 226-237)

Гомологи зрелого вирусного белка, вырезанного из полипротеина

Для задания я выбрала полипротеин вируса Feline immunodeficiency virus (isolate Petaluma) (FIV)

  • ID: POL_FIVPE
  • Статус: Reviewed

  • Amino acids: 1124 AA

  • AC: P16088

  • Белок Integrase (UniProtKB:P04585)

    Координаты белка в полипротеине: 844..1124

    Файл с вырезанным вирусным белком

    Текстовая выдача такого запроса в BLAST (все параметры запроса аналогичны пункту выше): Текстовая выдача программы

    Также было сделанно множественное выравнивание изучаемого белка и 7 первых в выдаче BLAST. В данном выравнивании я скрыла одну последовательность - TraF protein (IniProt AC A0A858XWF6), так как она сильно отличается от выбранного белка.

    Проект Jalview

    Исследование зависимости E-value от объёма банка

    Запрос с фильтром по организмам, ограничив поиск вирусами (Viruses), незначительно отличается от аналогичного без фильтра (примерно 2-4 последовательности)

    Для находки - интеграза Simian immunodeficiency virus (AGM155 ISOLATE) (P27973.2) изменилось значение E-value. До применения фильтра по организмам, только вирусам, значение составляло - 3e-60, а после - 1e-61. Данное значение определяется формулой: E-value=Kmn·e -λS, где n — размер базы данных (суммарная длина всех последовательностей)

    Если первое значение (3e-60) - это ожидаемое количество случайных находок как вирусных, так и не вирусных последовательностей, а второе число (1e-61) - это ожидаемое количество случайных находок только вирусных последовательностей, то для того чтобы узнать долю вирусных белков в Swiss-Prot нужно: 3e-60 * 100% / 1e-61≈3.3%

    То есть доля вирусных белков в Swiss-Prot составляет примерно 3.3%. Также стоит учесть, что в зависимости от выбраной последовательности это значение может отличаться, поэтому более правильно сказать, что доля вирусных белков в Swiss-Prot составляет примерно 3-5%

    Текстовая выдача такого запроса в BLAST: Текстовая выдача программы