Выравнивание BLAST

Гомологи белка в в Swiss-prot

Параметры при запуске BLAST:

Enter accession number(s), gi(s), or FASTA sequence(s): P08958
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Algorithm parameters
Max target sequences: 100
Short queries: Automatically adjust parameters for short input sequences
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no

Выдача программы: 12KMUYEA014-Alignment.txt
Всего находок: 29

Было отобрано 6 белков Gas vesicle protein A из следующих организмов:

Для множественного выравнивания использовалась команда:

muscle -align all_prot.fasta -output homologs_alignment.fasta

Проект Jalview

Все белки можно назвать гомологичными исходному, так как в выравнивании имеется протяженный консервативный участок. Скорее всего, эволюционно более близкими являются 5 из 6 белков, так как белок O68680.1 является причиной большинства гэпов в конце выравнивания. Однако это недостаточно существенная причина, чтобы назвать этот белок негомологичным остальным.

Гомологи зрелого вирусного белка, вырезанного из полипротеина

В Swiss-prot был выбран следующий полипротеин:

ID: GP_HANTB
AC: P28728
Название вируса: Hantaan virus (strain B-1) (Korean hemorrhagic fever virus)

В записи Swiss-Prot в поле FT был найден ключ CHAIN зрелого белка со следующими характеристикиками:

Название: Glycoprotein N
Координаты в полипротеине: 17-646

Последовательность зрелого белка

Параметры при запуске BLAST:

Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Algorithm parameters
Max target sequences: 100
Short queries: Automatically adjust parameters for short input sequences
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no

Выдача программы: 164V7W5Z014-Alignment.txt
Всего находок: 18

Из выдачи BLAST было отбрано еще 4 белка:

Для множественного выравнивания использовалась команда:

muscle -align viruses.fasta -output viruses_alignment.fasta

Ссылка на проект Jalview

После удаления колонок, выходящих за длину исходного зрелого белка из полипротеина, выравнивание можно назвать единым консервативным участком. Исходя из этого, данные белки можно назвать гомологичными по всей длине.

Исследование зависимости E-value от объёма банка

Параметры при запуске BLAST:

Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Organism: Viruses (taxid:10239)
Algorithm: blastp (protein-protein BLAST)
Algorithm parameters
Max target sequences: 100
Short queries: Automatically adjust parameters for short input sequences
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no

Выдача программы: 167MB4MB016-Alignment.txt
Всего находок: 19

Количество находок увеличилось на одну. В предыдущем запросе E-value для всех белков равнялось 0.0, а Query cover составляло 100%. В данном запросе эти значения для тех же белков сохранились, а для нового белка E-value равняется 0.024 и покрытие запроса всего 23%. В связи с этим, этот белок, скорее всего, не гомологичен исходному.

Подобные результаты можно объяснить тем, что при введении нового органичения на организмы база данных уменьшилась в размерах. И поскольку E-value зависит от размера базы данных, то для белка, для которого ранее это значение превышало допустимый порог, E-value снизилось и данный белко оказался в выдаче BLAST.

Поскольку для всех белков из обоих запросов E-value не изменилось, то оценить долю вирусных белков в Swiss-Prot по имеющимся результатам нельзя, поэтому увеличим порог E-value в исходном запросе, чтобы белок, появившийся во втором запросе тоже оказался в выдаче BLAST.

Параметры при запуске BLAST:

Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Algorithm parameters
Max target sequences: 100
Short queries: Automatically adjust parameters for short input sequences
Expect threshold: 0.9
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no

Выдача программы: 1BAPMUSJ016-Alignment.txt
Всего находок: 19

Для белка из Crimean-Congo hemorrhagic fever virus strain IbAr10200 E-value составляет 0.57 без уточнения таксономической принадлежности и 0.024 с уточнением. Таким образом, вирусные белки составляют приблизительно 4,2% от всех белков в Swiss-Prot.