Практикум 10. BLAST

ПОИСК ГОМОЛОГОВ БЕЛКА Q31MN3 В SWISS-PROT

Для выполнения практикума 7 и задания 1 практикума 10 использовался белок Q31MN3 (KATG_SYNE7) — каталаза-пероксидаза (сatalase-peroxidase).

Параметры, которые были использованы при запуске BLAST:

Enter accession number(s), gi(s), or FASTA sequence(s): Q31MN3

Database: UniProtKB/Swiss-Prot(swissprot)

Algorithm: blastp (protein-protein BLAST)

(далее Algorithm parameters):

Max target sequences: 5000

Short queries: yes

Expect threshold: 0.05

Word size: 5

Matrix: BLOSUM62

Gap Costs: Existence: 11 Extension: 1

Compositional adjustments: Conditional compositional score matrix adjustment

Текстовая выдача программы: Y93SHP4J016-Alignment.txt

Всего было найдено 327 результатов. Из них были выбраны следующие:
Q31MN3.1 (KATG_SYNE7, выбранный белок, Synechococcus elongatus PCC 7942 = FACHB-805)
A1SWM1.1 (KATG_PSYIN, белок Psychromonas ingrahamii 37)
B1XK45.1 (KATG_PICP2, белок Picosynechococcus sp. PCC 7002)
Q87J02.1 (KATG1_VIBPA, белок Vibrio parahaemolyticus RIMD 2210633)
C3LMN9.1 (KATG_VIBCM, белок Vibrio cholerae M66-2)
Q5WU58.1 (KATG1_LEGPL, белок Legionella pneumophila str. Lens)
C6DK50.1 (KATG_PECCP, белок Pectobacterium carotovorum subsp. carotovorum PC1)
Q0A8G6.1 (KATG_ALKEH, белок Alkalilimnicola ehrlichii MLHE-1)

В директории ~/term2/pr10 был создан текстовый файл homolog.txt с идентификаторами записей о белках. Затем при помощи команды seqret @homolog.txt homolog.fasta был создан файл в формате fasta и запущена программа muscle: muscle -align homolog.fasta -output homolog_alignment.fasta.

Файл homolog_alignment.fasta с полученным выравниванием был загружен в программу Jalview: файл с проектом Jalview

Все последовательности белков являются гомологами последовательности белка Q31MN3, так как в выравнивании очень мало гэпов и сильно различающихся участков, есть много консервативных участков.

ПОИСК ГОМОЛОГОВ ЗРЕЛОГО ВИРУСНОГО БЕЛКА ИЗ ПОЛИПРОТЕИНА В SWISS-PROT

Выбранный полипротеин вируса из Swiss-Prot:

ID: POLN_CHIK3;

AC: Q5XXP4;

Название вируса: Chikungunya virus (strain 37997) (CHIKV).

В записи Swiss-Prot в поле FT (ключи CHAIN) был выбран зрелый белок с названием RNA-directed RNA polymerase nsP4 и коородинатами 1864-2474

Средствами EMBOSS была вырезана последовательность выбранного зрелого белка в файл в формате fasta.

Параметры, которые были использованы при запуске BLAST:

Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка

Database: UniProtKB/Swiss-Prot(swissprot)

Algorithm: blastp (protein-protein BLAST)

(далее Algorithm parameters):

Max target sequences: 1000

Short queries: yes

Expect threshold: 0.05

Word size: 5

Matrix: BLOSUM62

Gap Costs: Existence: 11 Extension: 1

Compositional adjustments: Conditional compositional score matrix adjustment

Текстовая выдача программы: Y9PX296Z016-Alignment.txt

Всего было найдено 29 результатов. Из них были выбраны следующие:
Q5XXP4.1 (POLN_CHIK3, выбранный белок, Chikungunya virus strain Senegal 37997)
Q8JUX6.1 (POLN_CHIKS, белок Chikungunya virus strain S27-African prototype)
O90370.1 (POLN_ONNVI, белок Igbo Ora virus)
P13886.2 (POLN_ONNVG, белок O'nyong-nyong virus strain Gulu)
P13888.2 (POLN_RRVT, белок Ross river virus (STRAIN T48))
P13887.2 (POLN_RRVN, белок Ross river virus (STRAIN NB5092))
P08411.2 (POLN_SFV, белок Semliki forest virus (SFV))
Q8QZ73.3 (POLN_MAYAB, белок Mayaro virus (strain Brazil))

В директории ~/term2/pr10 был создан текстовый файл homvirus.txt с идентификаторами записей о белках. Затем при помощи команды seqret @homvirus.txt homvirus.fasta был создан файл в формате fasta и запущена программа muscle: muscle -align homvirus.fasta -output homvirus_alignment.fasta.

Файл homvirus_alignment.fasta с полученным выравниванием был загружен в программу Jalview: файл с проектом Jalview

Все выбранные последовательности можно назвать гомологичными, так как несмотря на наличие неконсервативного участка ближе к концу последовательностей, есть длинные консервативные участки. Однако белок P13888 (POLN_RRVT) имеет меньшую длину, поэтому примерно половине его последовательности не было ничего сопоставлено, хотя в остальной части также присутствует неконсервативный и консервативные участки.

ИССЛЕДОВАНИЕ ЗАВИСИМОСТИ E-VALUE ОТ ОБЪЁМА БАНКА

Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка

Database: UniProtKB/Swiss-Prot(swissprot)

Organism: Viruses (taxid:10239)

Algorithm: blastp (protein-protein BLAST)

(далее Algorithm parameters):

Max target sequences: 1000

Short queries: yes

Expect threshold: 0.05

Word size: 5

Matrix: BLOSUM62

Gap Costs: Existence: 11 Extension: 1

Compositional adjustments: Conditional compositional score matrix adjustment

Текстовая выдача программы: Y9PX296Z016-Alignment.txt

Количество находок не изменилось. У большинства находок значение E-valuе не изменилось (0.0), кроме двух последних. Например, у белка P03594.1 (RDRP_BMV, Brome mosaic virus (BMV)) E-valuе изменилось с 7e-10 на 3e-11 (уменьшилось, а значит, улучшилось). Оценить долю вирусных белков в базе Swiss-Prot можно по отношению этих значений, так как при поиске с фильтром по организмам размер баз (n), длина исходной последовательности (m) и вес (B) из формулы расчета E-value не изменяются. Тогда доля вирусных белков в базе Swiss-Prot составляет примерно 4,3%.