Практикум 10. Поиск гомологов (BLAST)

Задание 1. Поиск гомологов белка MSL7_MYCMM (B2HIL7)

Белок: B2HIL7 (MSL7_MYCMM) — Phenolphthiocerol synthesis polyketide synthase type I Pks15/1 из Mycobacterium marinum

Параметры BLAST:
  • Program: blastp
  • Database: swissprot
  • Word size: 3
  • Matrix: BLOSUM62
  • Gap costs: 11, 1
  • E-value threshold: 10
Результаты:
Комментарии:

Выбраны 5 гомологов из разных видов микобактерий и стрептомицетов с идентичностью 49-82%. Все белки имеют E-value = 0.0.

Задание 2. Вирусный полипротеин (New York virus)

Полипротеин: GP_NYV (Q83887) — Envelopment polyprotein из New York virus (Reviewed, Swiss-Prot)

Выбранный зрелый белок (из поля FT):
  • Название: Glycoprotein N (Gn)
  • Координаты в полипротеине: 18-652
  • Способ вырезания: EMBOSS extractseq -regions 18-652

Файл с вырезанной последовательностью:
NYV_Gn_final.fasta (название: NYV_Glycoprotein_N, 635 а.к.)

Результаты BLAST (без фильтра):
Комментарии:

Зрелый белок Gn вырезан через EMBOSS extractseq. Выбраны 5 гомологов из хантавирусов с идентичностью 51-94%. Все гомологи имеют E-value = 0.0, что подтверждает их родство. В Jalview удалены позиции левее первой и правее последней буквы Gn.

Задание 3. Исследование зависимости E-value от объёма банка

Параметры при запуске программы:
  • Enter sequence: зрелый белок Gc (653-948) из полипротеина New York virus
  • Database: UniProtKB/Swiss-Prot (swissprot)
  • Organism: Viruses (taxid:10239)
  • Algorithm: blastp
  • Expect threshold: 0,05
  • Word size: 3
  • Matrix: BLOSUM62
  • Gap Costs: Existence: 11 Extension: 1
  • Filters and Masking: нет

Количество находок: 22 (при поиске без фильтра также было 22 значимых совпадения, все — вирусные белки).

Результат работы программы:

Для оценки доли вирусных белков выбран белок P0DTJ1.1 (Orthohantavirus tulaense).

  • Поиск по полной базе Swiss-Prot: E-value = 1×10⁻¹⁷⁸
  • Поиск только по вирусной части: E-value = 4×10⁻¹⁸⁰

Отношение Efull / Evirus = (1×10⁻¹⁷⁸) / (4×10⁻¹⁸⁰) = 25.

При фиксированном запросе E-value примерно пропорционально размеру базы данных. Обратное отношение Evirus / Efull ≈ 1/25 = 0,04 даёт оценку доли вирусных белков в Swiss-Prot около 4%.

Вывод:

Список находок практически не изменился (все гомологи Gc — вирусы). Полученная оценка доли вирусных белков (4%) согласуется с известным составом Swiss-Prot.

Файлы результатов: