Практикум №10

1. Выравнивание гомологов белка

На сайте NCBI использовал алгоритм blastp (protein-protein BLAST), Database: standard databases, swissprot.
Algorithm parameters:
General Parameters: Max target sequences: 100, Expect threshold: 0.05, Word size: 5
Scoring Parameters: Matrix: BLOSUM62, Gap costs: (existence: 11, extension: 1)
Текстовая выдача программы: ссылка
Выбрал 5 случайных белков, ссылка на документ с множественным выравниванием в Jalview. Думаю, что все белки гомологичны выбранному, так как каждый имеет участок с большим количеством совпадающих и идентичных аминокислот (+очень низкие значения E-value, максимальное - 2e-132)

2. Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина

Данные о белке:
ID: GP_HTRV
AC: J3WAX0
OS: Heartlannd virus (HTRV)
Вырезанный белок: Glycoprotein N
Координаты: 19..566
Ссылка на файл в формате Fasta. Параметры поиска оставил такие же, как в предыдущем задании. Текстовая выдача. Выбрал 4 белка идущие по E-Value после моего и еще один с конца. Проект Jalview. Опять же, думаю что все белки гомологичны, потому что есть много гомологичных участков, в том числе и у белка с самым высоким E-Value.

3. Исследование зависимости E-value от объёма банка

Рассмотрим белок с АС P09613 с наибольшим E-Value. В первой выдаче Blast (без указания таксона) значение E-Value было 2e-10, во второй выдаче (с указанием таксона - Viruses): 1e-11. Исходя из теоремы Карлина, значение E-value могло измениться только из-за размера базы данных (суммарной длины всех последовательностей). Поэтому отношение размера базы данных вирусов к размеру всех данных равно отношению E-value из второй выдачи к E-value из первой выдачи, т.е 1 к 20, следовательно, доля вирусных белков равна 5%