Практикум 10. Поиск гомологов (BLAST)
Задание 1. Поиск гомологов белка MSL7_MYCMM (B2HIL7)
Белок: B2HIL7 (MSL7_MYCMM) — Phenolphthiocerol synthesis polyketide synthase type I Pks15/1 из Mycobacterium marinum
Параметры BLAST:
- Program: blastp
- Database: swissprot
- Word size: 3
- Matrix: BLOSUM62
- Gap costs: 11, 1
- E-value threshold: 10
Результаты:
- Текстовая выдача BLAST
- FASTA-файл с последовательностями (5 гомологов)
- Множественное выравнивание (FASTA)
- Проект Jalview
Комментарии:
Выбраны 5 гомологов из разных видов микобактерий и стрептомицетов с идентичностью 49-82%. Все белки имеют E-value = 0.0.
Задание 2. Вирусный полипротеин (New York virus)
Полипротеин: GP_NYV (Q83887) — Envelopment polyprotein из New York virus (Reviewed, Swiss-Prot)
Выбранный зрелый белок (из поля FT):
- Название: Glycoprotein N (Gn)
- Координаты в полипротеине: 18-652
- Способ вырезания: EMBOSS extractseq -regions 18-652
Файл с вырезанной последовательностью:
NYV_Gn_final.fasta (название: NYV_Glycoprotein_N, 635 а.к.)
Результаты BLAST (без фильтра):
- Текстовая выдача BLAST
- FASTA-файл с гомологами (5 белков)
- Множественное выравнивание (FASTA)
- Проект Jalview
Комментарии:
Зрелый белок Gn вырезан через EMBOSS extractseq. Выбраны 5 гомологов из хантавирусов с идентичностью 51-94%. Все гомологи имеют E-value = 0.0, что подтверждает их родство. В Jalview удалены позиции левее первой и правее последней буквы Gn.
Задание 3. Исследование зависимости E-value от объёма банка
Параметры при запуске программы:
- Enter sequence: зрелый белок Gc (653-948) из полипротеина New York virus
- Database: UniProtKB/Swiss-Prot (swissprot)
- Organism: Viruses (taxid:10239)
- Algorithm: blastp
- Expect threshold: 0,05
- Word size: 3
- Matrix: BLOSUM62
- Gap Costs: Existence: 11 Extension: 1
- Filters and Masking: нет
Количество находок: 22 (при поиске без фильтра также было 22 значимых совпадения, все — вирусные белки).
Результат работы программы:
Для оценки доли вирусных белков выбран белок P0DTJ1.1 (Orthohantavirus tulaense).
- Поиск по полной базе Swiss-Prot: E-value = 1×10⁻¹⁷⁸
- Поиск только по вирусной части: E-value = 4×10⁻¹⁸⁰
Отношение Efull / Evirus = (1×10⁻¹⁷⁸) / (4×10⁻¹⁸⁰) = 25.
При фиксированном запросе E-value примерно пропорционально размеру базы данных. Обратное отношение Evirus / Efull ≈ 1/25 = 0,04 даёт оценку доли вирусных белков в Swiss-Prot около 4%.
Вывод:
Список находок практически не изменился (все гомологи Gc — вирусы). Полученная оценка доли вирусных белков (4%) согласуется с известным составом Swiss-Prot.
Файлы результатов: