Практикум 10. Программа BLAST

Поиск гомологов ЦТФ-синтазы

Задача заключалась в поиске гомологичных белков выбранному мной ранее белку Hydrogenophilus thermoluteolus (ЦТФ-синтаза). Для этого я использовала Protein BLAST на сайте NCBI.

В качестве запроса для программы была дана скачанная последовательность белка, выбран банк Swissprot. Кроме того, были выставлены следующие параметры:

Количество выданных белков: 1000

Порог E-value: 0.05

Длина слова: 5

Матрица: BLOSUM62

Штраф за открытие гэпа: 11

Штраф за продление гэпа: 1

Была получена такая текстовая выдача. Далее я случайным образом выбрала 7 последовательностей (8 вместе с исходной) и скачала их в формате fasta. После создала множественное выравнивание и загрузила его в Jalview. Мы видим, что при уровне идентичности 100% многие колонки абсолютно консервативны. Это говорит о том, что случайно выбранные белки гомологичны исходному белку.

Гомологи зрелого вирусного белка, вырезанного из полипротеина

Я выбрала полипротеин pp62, который встречается у вируса африканской чумы свиней.

ID: PP62_ASFB7

AC: Q65179; Q86851;

Название: African swine fever virus (strain Badajoz 1971 Vero-adapted) (Ba71V) (ASFV)

Я нашла в описании полипротеина, на какие зрелые белки он разрезается, всего их 4. Был выбран белок под названием p8, его координаты 464-530.

Далее я повторила те же действия, что и в предыдущем пункте. Параметры были выставлены следующие:

Количество выданных белков: 100

Порог E-value: 0.05

Длина слова: 5

Матрица: BLOSUM62

Штраф за открытие гэпа: 11

Штраф за продление гэпа: 1

Было выдано 4 результата, изменение длины слова не дало никаких результатов. После выравнивания в JalView мы видим, что белки гомологичны, так как последовательности практически полностью совпадают.

Исследование зависимости E-value от объёма банка

Все параметры были оставлены, но кроме них был еще добавлен фильтр по организмам "Viruses". Получили следующую выдачу. E-value у всех белков уменьшился.

Я выбрала первую последовательность, в прошлый раз ее E-value было равно 9e-39, а теперь оно стало 4е-40. То есть можно посчитать, что доля вирусных белков составляет 4,44%.