BLAST

Поиск гомологов белка в Swiss-Prot с использованием Protein BLAST

Таблица 1. Параметры поиска и их значения

Параметр Значение
AC ACL96011.1
Job title ACL96011:GGDEF/response regulator protein...
Database swissprot Non-redundant UniProtKB/SwissProt sequences
Organism -
Algorithm blastp (protein-protein BLAST)
Max target sequences 100
Short querles Automatically adjust parameters for short input sequences
Expect threshold 10
Word size 6
Max matches in a query range 0
Matrix BLOSUM62
Gap Costs Existence: 11 Extension: 1
Compositional adjustmants Conditional compositional score matrix adjustment
Filter; Mask -

Текстовая выдача программы

Предварительное выравнивание было выполнено с первыми 5 белками, извлеченными из 3 различных списков выдачи программы. Сортировка была проведена последовательно по трем параметрам: E-value, Query Cover и percent identity. Ниже приведены соответствующие выравнивания в указаном порядке.

В первом выравнивании три почти идентичных белка (P0AA89, Q320T0 и Q3Z1N3) были выровнены программой с исходным белком (B8GZM2), который оказался им негомологичен, как и два остальных (Q9HT84 и P54595).

alignment

Второе и третье выравнивания оказались приемлемыми:

alignment

alignment

Данные выравнивания похожи и ничем принципиально не отличаются. Выберем последнее из них.

Интересно, что в первом случае выравнивание оказалось самым худшим, в то время как список сортируется по E-value по умолчанию.

Поиск в Swiss-Prot гомологов зрелого вирусного белка, вырезанного из полипротеина

По запросу taxonomy:caulimoviridae name:polyprotein был выбран Polyprotein P3 организма Rice tungro bacilliform virus (isolate Philippines) (RTBV).

Идентификаторы полипротеина:

ID POL_RTBVP
AC P27502; P27528

Из зрелых белков, на которые разрезается полипротеин, был выбран Reverse transcriptase/Ribonuclease H. Положение гена: с 1139 по 1619 аминокислотный остаток. С помощью команды seqret sw:POL_RTBVP[1139:1619] pol.fasta нужный участок был вырезан из последовательности. Описание последовательности в полученном fasta-файле изменены вручную с помощью редактора nano. Данный fasta-файл был использован для построения множественного выравнивания.

Исследование зависимости E-value от объёма банка

Запрос исключительно по вирусным белкам сократил выдачу программы с 38 до 22 записей. У записи P19199.2 e-value уменьшился на два порядка и стал равным 9e-105. Произошло это потому, что e-value напрямую зависит от объема базы данных согласно теореме Карлина (уменьшается при ее ограничении). Оценка доли вирусных белков в UniProtKB/SwissProt: 4,5%