Практикум 10
Гомологи белка S. maccroryi
Для белка, который я использовала в практикуме 7, BLAST не нашел гомологов в Swiss-Prot, поэтому я взяла другой белок, связанный с переносом натрия (запрос "(taxonomy_id:1458426) AND (protein_name:Na+)", выбрала первый белок — A0A060NWX5_9BURK, это симпортер ионов натрия и фосфат-ионов).
После я провела BLAST с аминокислотной последовательностью этого белка со следующими параметрами:
- База данных — Swiss-Prot;
- Алгоритм — blastp;
- Максимальное кол-во результатов — 100;
- Автоматически подстраивать настройки для коротких последовательностей — да;
- Критическое E-value — 0,05;
- Длина слова — 2;
- Настройки матрицы, штрафов, фильтров, etc. — по умолчанию.
По ссылке можно посмотреть результаты BLAST.
Из всех результатов я взяла три первых результата из разных организмов и три последних и выровняла их при помощи встренного в UniProt алгоритма. Результаты — в проекте Jalview.
Кажется, что все эти белки правда гомологичны: у них есть консервативные для всех белков участки (самый выразительный в столбцах 150—160).
Гомологи зрелого вырезанного из полипротеина вирусного белка
Я выбрала полипротеин GAG_MLVF5 вируса Френд, вызывающего лейкемию у мышиных. Из него я выбрала участок, соответствующий белку капсида p30. После я запустила BLAST с теми же настройками, что и в предыдущем пункте. Результаты можно увидеть по ссылке.
Из выдачи BLAST я взяла 7 первых последовательностей, принадлежащих разным организмам, и выровняла их так же, как в прошлом пункте. Реузльтаты можно видеть в проекте Jalview. Видно, что все эти последовательности гомологичны, т.к. они очень схожи: почти все колонки консервативны на 100%.
Зависисмость E-value от объема банка
Поиск BLAST с фильтром по taxonomy_id выдал те же 55 результатов. Для трех последних результатов я взяла E-value и рассчитала интервал, в который должна попадать доля записей с вирусными белками среди всех записей в Swiss-Prot.
Я учитывала, что при расчете E-value оно округляется до одного значащего знака, т.е. E-value n*10m на самом деле означает E-value от (n-0,5)*10m до (n+0,5)*10m. Результаты можно видеть в табл. 1.
Видно, что получившиеся интервалы пересекаются в интервале 3,3% — 5,7%. Можно было бы еще уточнить это значение, добавив еще записи, но я бы взяла за оценку медиану этого интервала — 4,5%, т. к. нам, кажется, не нужна точность.
E-value для поиска по всему Swiss-Prot | E-value для поиска с фильтром Viruses | Доля записей с вирусными белками в базе данных |
---|---|---|
4e-04 | 2e-05 | 3,3% — 7,1% |
2e-27 | 8e-29 | 3% — 5,7% |
3e-47 | 1e-48 | 1,4% — 6% |