Для выполнения практикума был использован белок dITP/XTP-пирофосфатаза (AC: A0A857J2F4) из практикума 7.
Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка dITP/XTP pyrophosphatase
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 100
Short queries: yes
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustmets: Conditional compositional score matrix adjustment
Filters and Masking:no
Выдача программы: YWM2DWB4016-Alignment.txt
Было отобрано 7 белков:
Q21XZ3.1 - Rhodoferax ferrireducens
A1W4I7.1 - Acidovorax sp.
A1WQF4.1 - Verminephrobacter eiseniae
A1TT41.1 - Paracidovorax citrulli
A1VKF6.1 - Polaromonas naphthalenivorans
A9BTA7.1 - Delftia acidovorans
Q62HZ7.1 - Burkholderia mallei
Множественное выравнивание белков-гомологов dITP/XTP pyrophosphatase: Проект Jalview
Выбранные белки являются гомологичными белку dITP/XTP pyrophosphatase, так как в выравнивании наблюдается небольшое число гэпов и большой процент консервативных участков.
В Swiss-Prot по запросу: (protein_name:polyprotein) AND (taxonomy_id:10239)
был выбран полипротеин Envelope glycoprotein gp63 вируса:
ID: ENV_HTLV2
AC: P03383
Название вируса: Human T-cell leukemia virus 2 (HTLV-2)
В записи Swiss-Prot в поле FT было найдено 3 ключа CHAIN (зрелые белки, на которые разрезается полипротеин). Далее был выбран один из таких белков:
Название: Transmembrane protein
Координаты в полипротеине: 309 - 486
Последовательность зрелого белка
Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 50
Short queries: yes
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustmets: Conditional compositional score matrix adjustment
Filters and Masking:no
Выдача программы: YZ03XBU2014-Alignment.txt
Было отобрано 7 белков:
P25505.1 - Bovine leukemia virus
P31791.1 - Feline endogenous virus
P03385.1 - Moloney murine leukemia virus isolate Shinnick
Q27ID8.1 - Xenotropic MuLV-related virus
P03391.1 - Gardner-Arnstein feline sarcoma virus
P15073.1 - Mink cell focus-forming murine leukemia virus
P26804.1 - Friend murine leukemia virus
Множественное выравнивание: Проект Jalview
Белки не гомологичны белку Transmembrane protein по всей длине, но имеют гомологичные участки. Отсутствие гомологии по всей длине объясняется наличием большого количества непокрашенных (негомологичных) участков и гэпов.
Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Organism: Viruses (taxid: 10239)
Algorithm: blastp (protein-protein BLAST)
Max target sequences: 50
Short queries: yes
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustmets: Conditional compositional score matrix adjustment
Filters and Masking:no
Выдача программы: YZ3VCAPX014-Alignment.txt
Список находок не изменился, но изменилось значение E-value.
Так, у белка Bovine leukemia virus значение E-value без ограничений по организмам составляет 2e-21, а с ограничением - 7e-23, то есть при поиске с ограничением E-value понижается (повышается значимость находки).
Долю вирусных белков в Swiss-Prot можно рассчитать из формулы нахождения E-value = m·n·2–B.
Вес (В) и длина исходной последовательности (m) не изменяются, меняется только размер базы данных (n). Тогда доля вирусных белков зависит только от E-value и равна 3,5% всех белков в Swiss-Prot.