Практикум 10

BLAST

Гомологи к RNJ_PYRAB

Database UniProtKB/Swiss-Prot(swissprot) База данных, в рамках которой проводится поиск
Algorithm blastp (protein-protein BLAST) BLAST алгоритм белковых последовательностей
Max target sequences 100 Максимум строк выдачи
Expect threshold 0.05 Максимально допустимое E-value
Word size 5 Размер слова, подаваемого алгоритму BLAST
Matrix BLOSUM62 Матрица замен - веса при замене одной аминокислоты на другую
Gap Costs Existence: 11 Extension: 1 Аффинные штрафы за индели: за открытие и за гэп, его продолжающий
Compositional adjustments Conditional compositional score matrix adjustment Учет возможности участков со смещенной представленностью аминокислот

О выравнивании и гомологии белков. Выбранные белки оказались гомологичны - все они имели высокую степень схожести, и по отдельным консервативным, общим для всех фрагментам идиентичны. Все это свидетельствуе о высокой вероятности гомологии белков.

Гомологи вирусного белка

О полипротеине (по (taxonomy_id:10239) AND (protein_name:polyprotein) AND (reviewed:true))
ID GP_NYV
AC Q83887
OS New York virus (NYV)

О выбранном зрелом белке (seqret 'sw:gp_nyv[653:1140]' -auto segment.fasta)
Координаты: 653..1140
Имя: Glycoprotein C

Исследование зависимости E-value от объёма банка

Список находок от применения фильтра по организмам не изменился.

Строка находки из предыдущего пункта
RecName: Full=Envelope glycoprotein; AltName: Full=M... Puumala viru... NA 38998 456 456 56% 1e-159 76.00 275
Строка текущего поиска
RecName: Full=Envelope glycoprotein; AltName: Full=M... Puumala viru... NA 38998 456 456 56% 5e-161 76.00 275

E-value прямо пропорционально размеру базы данных с наложенными ограничениями. Значит, чтобы узнать примерную долю записей о вирусах в UniProtKB/Swiss-Prot(swissprot), достаточно разделить 5e-161 на 1e-159:
(5e-161)/(1e-159)=0.05; то есть ~5%.