Для выполнения практикума 7 и задания 1 практикума 10 использовался белок Q31MN3 (KATG_SYNE7) — каталаза-пероксидаза (сatalase-peroxidase).
Параметры, которые были использованы при запуске BLAST:
Enter accession number(s), gi(s), or FASTA sequence(s): Q31MN3
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
(далее Algorithm parameters):
Max target sequences: 5000
Short queries: yes
Expect threshold: 0.05
Word size: 5
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension: 1
Compositional adjustments: Conditional compositional score matrix adjustment
Текстовая выдача программы: Y93SHP4J016-Alignment.txt
Всего было найдено 327 результатов. Из них были выбраны следующие:
Q31MN3.1 (KATG_SYNE7, выбранный белок, Synechococcus elongatus PCC 7942 = FACHB-805)
A1SWM1.1 (KATG_PSYIN, белок Psychromonas ingrahamii 37)
B1XK45.1 (KATG_PICP2, белок Picosynechococcus sp. PCC 7002)
Q87J02.1 (KATG1_VIBPA, белок Vibrio parahaemolyticus RIMD 2210633)
C3LMN9.1 (KATG_VIBCM, белок Vibrio cholerae M66-2)
Q5WU58.1 (KATG1_LEGPL, белок Legionella pneumophila str. Lens)
C6DK50.1 (KATG_PECCP, белок Pectobacterium carotovorum subsp. carotovorum PC1)
Q0A8G6.1 (KATG_ALKEH, белок Alkalilimnicola ehrlichii MLHE-1)
В директории ~/term2/pr10 был создан текстовый файл homolog.txt с идентификаторами записей о белках. Затем при помощи команды seqret @homolog.txt homolog.fasta был создан файл в формате fasta и запущена программа muscle: muscle -align homolog.fasta -output homolog_alignment.fasta.
Файл homolog_alignment.fasta с полученным выравниванием был загружен в программу Jalview: файл с проектом Jalview
Все последовательности белков являются гомологами последовательности белка Q31MN3, так как в выравнивании очень мало гэпов и сильно различающихся участков, есть много консервативных участков.
Выбранный полипротеин вируса из Swiss-Prot:
• ID: POLN_CHIK3;
• AC: Q5XXP4;
• Название вируса: Chikungunya virus (strain 37997) (CHIKV).
В записи Swiss-Prot в поле FT (ключи CHAIN) был выбран зрелый белок с названием RNA-directed RNA polymerase nsP4 и коородинатами 1864-2474
Средствами EMBOSS была вырезана последовательность выбранного зрелого белка в файл в формате fasta.
Параметры, которые были использованы при запуске BLAST:
Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
(далее Algorithm parameters):
Max target sequences: 1000
Short queries: yes
Expect threshold: 0.05
Word size: 5
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension: 1
Compositional adjustments: Conditional compositional score matrix adjustment
Текстовая выдача программы: Y9PX296Z016-Alignment.txt
Всего было найдено 29 результатов. Из них были выбраны следующие:
Q5XXP4.1 (POLN_CHIK3, выбранный белок, Chikungunya virus strain Senegal 37997)
Q8JUX6.1 (POLN_CHIKS, белок Chikungunya virus strain S27-African prototype)
O90370.1 (POLN_ONNVI, белок Igbo Ora virus)
P13886.2 (POLN_ONNVG, белок O'nyong-nyong virus strain Gulu)
P13888.2 (POLN_RRVT, белок Ross river virus (STRAIN T48))
P13887.2 (POLN_RRVN, белок Ross river virus (STRAIN NB5092))
P08411.2 (POLN_SFV, белок Semliki forest virus (SFV))
Q8QZ73.3 (POLN_MAYAB, белок Mayaro virus (strain Brazil))
В директории ~/term2/pr10 был создан текстовый файл homvirus.txt с идентификаторами записей о белках. Затем при помощи команды seqret @homvirus.txt homvirus.fasta был создан файл в формате fasta и запущена программа muscle: muscle -align homvirus.fasta -output homvirus_alignment.fasta.
Файл homvirus_alignment.fasta с полученным выравниванием был загружен в программу Jalview: файл с проектом Jalview
Все выбранные последовательности можно назвать гомологичными, так как несмотря на наличие неконсервативного участка ближе к концу последовательностей, есть длинные консервативные участки. Однако белок P13888 (POLN_RRVT) имеет меньшую длину, поэтому примерно половине его последовательности не было ничего сопоставлено, хотя в остальной части также присутствует неконсервативный и консервативные участки.
Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Organism: Viruses (taxid:10239)
Algorithm: blastp (protein-protein BLAST)
(далее Algorithm parameters):
Max target sequences: 1000
Short queries: yes
Expect threshold: 0.05
Word size: 5
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension: 1
Compositional adjustments: Conditional compositional score matrix adjustment
Текстовая выдача программы: Y9PX296Z016-Alignment.txt
Количество находок не изменилось. У большинства находок значение E-valuе не изменилось (0.0), кроме двух последних. Например, у белка P03594.1 (RDRP_BMV, Brome mosaic virus (BMV)) E-valuе изменилось с 7e-10 на 3e-11 (уменьшилось, а значит, улучшилось). Оценить долю вирусных белков в базе Swiss-Prot можно по отношению этих значений, так как при поиске с фильтром по организмам размер баз (n), длина исходной последовательности (m) и вес (B) из формулы расчета E-value не изменяются. Тогда доля вирусных белков в базе Swiss-Prot составляет примерно 4,3%.