Таблица 1. Параметры поиска и их значения
Параметр | Значение |
AC | ACL96011.1 |
Job title | ACL96011:GGDEF/response regulator protein... |
Database | swissprot Non-redundant UniProtKB/SwissProt sequences |
Organism | - |
Algorithm | blastp (protein-protein BLAST) |
Max target sequences | 100 |
Short querles | Automatically adjust parameters for short input sequences |
Expect threshold | 10 |
Word size | 6 |
Max matches in a query range | 0 |
Matrix | BLOSUM62 |
Gap Costs | Existence: 11 Extension: 1 |
Compositional adjustmants | Conditional compositional score matrix adjustment |
Filter; Mask | - |
Предварительное выравнивание было выполнено с первыми 5 белками, извлеченными из 3 различных списков выдачи программы. Сортировка была проведена последовательно по трем параметрам: E-value, Query Cover и percent identity. Ниже приведены соответствующие выравнивания в указаном порядке.
В первом выравнивании три почти идентичных белка (P0AA89, Q320T0 и Q3Z1N3) были выровнены программой с исходным белком (B8GZM2), который оказался им негомологичен, как и два остальных (Q9HT84 и P54595).
Второе и третье выравнивания оказались приемлемыми:
Данные выравнивания похожи и ничем принципиально не отличаются. Выберем последнее из них.
Интересно, что в первом случае выравнивание оказалось самым худшим, в то время как список сортируется по E-value по умолчанию.
По запросу taxonomy:caulimoviridae name:polyprotein был выбран Polyprotein P3 организма Rice tungro bacilliform virus (isolate Philippines) (RTBV).
Идентификаторы полипротеина:
ID | POL_RTBVP |
AC | P27502; P27528 |
Из зрелых белков, на которые разрезается полипротеин, был выбран Reverse transcriptase/Ribonuclease H. Положение гена: с 1139 по 1619 аминокислотный остаток. С помощью команды seqret sw:POL_RTBVP[1139:1619] pol.fasta нужный участок был вырезан из последовательности. Описание последовательности в полученном fasta-файле изменены вручную с помощью редактора nano. Данный fasta-файл был использован для построения множественного выравнивания.
Запрос исключительно по вирусным белкам сократил выдачу программы с 38 до 22 записей. У записи P19199.2 e-value уменьшился на два порядка и стал равным 9e-105. Произошло это потому, что e-value напрямую зависит от объема базы данных согласно теореме Карлина (уменьшается при ее ограничении). Оценка доли вирусных белков в UniProtKB/SwissProt: 4,5%