Выравнивание BLAST
Гомологи белка в в Swiss-prot
Параметры при запуске BLAST:
Enter accession number(s), gi(s), or FASTA sequence(s): P08958
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Algorithm parameters
Max target sequences: 100
Short queries: Automatically adjust parameters for short input sequences
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no
Выдача программы: 12KMUYEA014-Alignment.txt
Всего находок: 29
Было отобрано 6 белков Gas vesicle protein A из следующих организмов:
- O33397.1 - Halorubrum vacuolatum
- Q9RH31.3 - Ancylobacter aquaticus
- O68680.1 - Priestia megaterium
- P0A3G0.2 - Planktothrix agardhii
- P80998.1 - Thiocapsa pendens
- P07060.2 - Microchaete diplosiphon
Для множественного выравнивания использовалась команда:
muscle -align all_prot.fasta -output homologs_alignment.fasta
Все белки можно назвать гомологичными исходному, так как в выравнивании имеется протяженный консервативный участок. Скорее всего, эволюционно более близкими являются 5 из 6 белков, так как белок O68680.1 является причиной большинства гэпов в конце выравнивания. Однако это недостаточно существенная причина, чтобы назвать этот белок негомологичным остальным.
Гомологи зрелого вирусного белка, вырезанного из полипротеина
В Swiss-prot был выбран следующий полипротеин:
ID: GP_HANTB
AC: P28728
Название вируса: Hantaan virus (strain B-1) (Korean hemorrhagic fever virus)
В записи Swiss-Prot в поле FT был найден ключ CHAIN зрелого белка со следующими характеристикиками:
Название: Glycoprotein N
Координаты в полипротеине: 17-646
Последовательность зрелого белка
Параметры при запуске BLAST:
Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Algorithm parameters
Max target sequences: 100
Short queries: Automatically adjust parameters for short input sequences
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no
Выдача программы: 164V7W5Z014-Alignment.txt
Всего находок: 18
Из выдачи BLAST было отбрано еще 4 белка:
- P17880.1 - Seoul virus SR11
- P33455.1 - Seoul virus 80-39
- Q806Y7.1 - Orthohantavirus dobravaense
- P16853.1 - Hantaan virus Lee
Для множественного выравнивания использовалась команда:
muscle -align viruses.fasta -output viruses_alignment.fasta
После удаления колонок, выходящих за длину исходного зрелого белка из полипротеина, выравнивание можно назвать единым консервативным участком. Исходя из этого, данные белки можно назвать гомологичными по всей длине.
Исследование зависимости E-value от объёма банка
Параметры при запуске BLAST:
Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Organism: Viruses (taxid:10239)
Algorithm: blastp (protein-protein BLAST)
Algorithm parameters
Max target sequences: 100
Short queries: Automatically adjust parameters for short input sequences
Expect threshold: 0.05
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no
Выдача программы: 167MB4MB016-Alignment.txt
Всего находок: 19
Количество находок увеличилось на одну. В предыдущем запросе E-value для всех белков равнялось 0.0, а Query cover составляло 100%. В данном запросе эти значения для тех же белков сохранились, а для нового белка E-value равняется 0.024 и покрытие запроса всего 23%. В связи с этим, этот белок, скорее всего, не гомологичен исходному.
Подобные результаты можно объяснить тем, что при введении нового органичения на организмы база данных уменьшилась в размерах. И поскольку E-value зависит от размера базы данных, то для белка, для которого ранее это значение превышало допустимый порог, E-value снизилось и данный белко оказался в выдаче BLAST.
Поскольку для всех белков из обоих запросов E-value не изменилось, то оценить долю вирусных белков в Swiss-Prot по имеющимся результатам нельзя, поэтому увеличим порог E-value в исходном запросе, чтобы белок, появившийся во втором запросе тоже оказался в выдаче BLAST.
Параметры при запуске BLAST:
Enter accession number(s), gi(s), or FASTA sequence(s): последовательность белка
Database: UniProtKB/Swiss-Prot(swissprot)
Algorithm: blastp (protein-protein BLAST)
Algorithm parameters
Max target sequences: 100
Short queries: Automatically adjust parameters for short input sequences
Expect threshold: 0.9
Word size: 5
Max matches in a query range: 0
Matrix: BLOSUM62
Gap Costs: Existence: 11 Extension:1
Compositional adjustments: Conditional compositional score matrix adjustment
Filters and Masking: no
Выдача программы: 1BAPMUSJ016-Alignment.txt
Всего находок: 19
Для белка из Crimean-Congo hemorrhagic fever virus strain IbAr10200 E-value составляет 0.57 без уточнения таксономической принадлежности и 0.024 с уточнением. Таким образом, вирусные белки составляют приблизительно 4,2% от всех белков в Swiss-Prot.