Практикум 10

Гомологи белка S. maccroryi

Для белка, который я использовала в практикуме 7, BLAST не нашел гомологов в Swiss-Prot, поэтому я взяла другой белок, связанный с переносом натрия (запрос "(taxonomy_id:1458426) AND (protein_name:Na+)", выбрала первый белок — A0A060NWX5_9BURK, это симпортер ионов натрия и фосфат-ионов).
После я провела BLAST с аминокислотной последовательностью этого белка со следующими параметрами:

  • База данных — Swiss-Prot;
  • Алгоритм — blastp;
  • Максимальное кол-во результатов — 100;
  • Автоматически подстраивать настройки для коротких последовательностей — да;
  • Критическое E-value — 0,05;
  • Длина слова — 2;
  • Настройки матрицы, штрафов, фильтров, etc. — по умолчанию.

По ссылке можно посмотреть результаты BLAST.
Из всех результатов я взяла три первых результата из разных организмов и три последних и выровняла их при помощи встренного в UniProt алгоритма. Результаты — в проекте Jalview.
Кажется, что все эти белки правда гомологичны: у них есть консервативные для всех белков участки (самый выразительный в столбцах 150—160).

Гомологи зрелого вырезанного из полипротеина вирусного белка

Я выбрала полипротеин GAG_MLVF5 вируса Френд, вызывающего лейкемию у мышиных. Из него я выбрала участок, соответствующий белку капсида p30. После я запустила BLAST с теми же настройками, что и в предыдущем пункте. Результаты можно увидеть по ссылке.
Из выдачи BLAST я взяла 7 первых последовательностей, принадлежащих разным организмам, и выровняла их так же, как в прошлом пункте. Реузльтаты можно видеть в проекте Jalview. Видно, что все эти последовательности гомологичны, т.к. они очень схожи: почти все колонки консервативны на 100%.

Зависисмость E-value от объема банка

Поиск BLAST с фильтром по taxonomy_id выдал те же 55 результатов. Для трех последних результатов я взяла E-value и рассчитала интервал, в который должна попадать доля записей с вирусными белками среди всех записей в Swiss-Prot.
Я учитывала, что при расчете E-value оно округляется до одного значащего знака, т.е. E-value n*10m на самом деле означает E-value от (n-0,5)*10m до (n+0,5)*10m. Результаты можно видеть в табл. 1.
Видно, что получившиеся интервалы пересекаются в интервале 3,3% — 5,7%. Можно было бы еще уточнить это значение, добавив еще записи, но я бы взяла за оценку медиану этого интервала — 4,5%, т. к. нам, кажется, не нужна точность.

Табл. 1. E-value в зависимости от объема банка
E-value для поиска по всему Swiss-Prot E-value для поиска с фильтром Viruses Доля записей с вирусными белками в базе данных
4e-04 2e-05 3,3% — 7,1%
2e-27 8e-29 3% — 5,7%
3e-47 1e-48 1,4% — 6%