Программа BLAST

Чингариева Алия

Студентка первого курса факультета биоинженерии и биоинформатики МГУ им. М. В. Ломоносова,

2024 год

Гомологи белка ATP-dependent zinc metalloprotease FtsH в Swiss-Prot

В практикуме 7 мною был выбран белок ATP-dependent zinc metalloprotease FtsH. Для поиска гомологов данного белка в Swiss-Prot я использовала BLAST, задав следующие параметры поиска:

Database - UniProtKB/Swiss-Prot(swissprot)
Algorithm - blastp (protein-protein BLAST)
Max target sequences - 100
Expect threshold - 0.05
Word size - 5
Max matches in a query range - 0
Matrix - BLOSUM62
Gap Costs - Existence: 11 Extension: 1
Compositional adjustments - Conditional compositional score matrix adjustment
Filters and Masking are not selected

Я отобрала 5 находок. Текстовая выдача BLAST.

В программе Jalview было выполнено множественное выравнивание. C 482 по 513 позицию наблюдается высококонсервативный участок в последовательностях.

Проект в Jalview.

Гомологи зрелого вирусного белка

В Swiss-Prot был найден полипротеин из African swine fever virus (ID: PP62_ASFB7; AC: Q65179).
Полипротеин разрезается на несколько зрелых белков, из которых был выбран один — белок под названием p15 с коордианатами от 2 до 158.

Последовательность зрелого белка.

Была повторно использована программа BLAST, но уже для последовательности вырезанного ранее зрелого белка. Было получено всего 4 находки, которые и использовались для множественного выравнивания в Jalview.

Текстовая выдача BLAST.

Я полагаю, что белки являются гомологами, так как их последовательности схожи.

Проект в Jalview.

Зависимость E-value от объёма банка

Был повторно выполнен поиск с теми же параметрами BLAST, за исключением того, что в этот раз использовался фильтр по организмам. Интересовали вирусы, поэтому в графе Organism было указано значение Viruses (taxid:10239). Количество находок не изменилось.

Значение E-value для последовательностей изменилось. К примеру, для одного из белков до использования фильтра значение равнялось 2e-109, а после составило 1e-110. Таким образом, математическое ожидание числа случайных находок уменьшилось. Это произошло ввиду того, что E-value зависит от размеров базы, а при использовании фильтра по организмам она, естетственно, уменьшается.

Примерная доля вирусных белков в базе Swiss-Prot составляет 5%.