Беляев Геннадий

На данной странице представлен практикум по использованию программы BLAST (Basic Local Alignment Search Tool) и его веб-интерфейса на сайте NCBI.

1) Поиск гомологов белка из практикума 8

Для поиска гомологов субъединицы C цитохрома фотосинтетического реакционного центра пурпурной бактерии Blastochloris viridis из практикума 8 был запущен алгоритм BLAST со следующими параметрами:

Таблица 1. *Параметры BLAST для первого запуска*
Параметр	Значение
Algorithm	blastp
Database	UniProtKB/SwissProt
Max target sequences	100
Short queries	On
Expect value	0,05
Word size	3
Gapcosts	11,1
Matrix	BLOSUM62
Window Size	40

В результате алгоритм выдал 5 последовательностей (не включая ту, по которой проводился поиск) белков из: Allochromatium vinosum DSM 180; Rubrivivax gelatinosus IL144; Thermochromatium tepidum; Roseobacter denitrificans OCh 114; Chloroflexus aurantiacus J-10-fl. Все белки выполняют роль цитохрома в электрон-транспортной цепи фотосинтетических комплексов данных бактерий. С текстовым результатом работы программы можно ознакомиться по ссылке. Найденные последовательности были загружены в формате fasta и выровнены с помощью команды:

muscle -in pufc.fasta -out pufc_align.fasta

Далее файл с выравниванием был загружен в программу Jalview, где последовательности были покрашены по проценту идентичности. Результат можно увидеть на рисунке 1, а также в файле по ссылке.

В выравнивании обнаруживается 4 (145-172; 191-220; 315-332; 413-434) относительно консервативных участка, вероятно, участвующих в связывании 4 гемов или других участников электрон-транспортной цепи цитохрома. Выделяющейся является последовательность цитохрома из Chloroflexus aurantiacus, в выравнивании которой присутствует большое количество инделей, что, возможно, свидетельствует об отсутствии гомологии с остальными белками, но точный вывод об этом сделать невозможно, так как C. aurantiacus является единственным представителем типа Chloroflexi, тогда как остальные бактерии относятся к типу Proteobacteria. Общий предок между этими типами был настолько давно, что узучаемые последовательности вполне могли так сильно измениться.

2) Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина

Таксономия вируса:

Superkingdom: Viruses
Clade: Riboviria
Kingdom: Orthornavirae
Phylum: Pisuviricota
Class: Pisoniviricetes
Order: Nidovirales
Suborder: Cornidovirineae
Family: Coronaviridae
Subfamily: Orthocoronavirinae
Genus: Betacoronavirus
Subgenus: Sarbecovirus
Host: Homo sapiens (Human)
Severe acute respiratory syndrome coronavirus 2
2019-nCoV, SARS-CoV-2

Информация о полипротеине:

UniProt ID: R1A_SARS2
UniProt AC: P0DTC1
Molecular weight: 489989 Da
Length: 4405 AA
Recommended UniProt name: Replicase polyprotein 1a
Short recommended UniProt name: pp1a
Alternative UniProt name: ORF1a polyprotein
Organism name: Severe acute respiratory syndrome coronavirus 2 (2019-nCoV) (SARS-CoV-2)

Поиск гомологов зрелого вирусного белка проводился для полипротеина из коронавируса SARS-CoV-2. В данном вирусе обнаруживается один полипротеин, состоящий из 10 незрелых белков, 9 из которых не входят в зрелую вирусную частицу (неструктурные вирусные белки - non-structural protein(nsp)), а выполняют функции репликации РНК в клетке хозяина; созревания, упаковки и выхода вириона из клетки. Для анализа был выбран non-structural protein 8 (nsp8), который выполняет функцию праймазы в комплексе с nsp7, образуя шестнадцатисубъединичный комплекс (по 8 субъединиц nsp7 и nsp8). Информация о координатах белка в полипротеине была получена со страницы Uniprot: начало - 3943 а/к, конец - 4140 а/к. Далее для получения последовательности зрелого белка была выполнена следующая команда:

seqret sw:"R1A_SARS2[3943:4140]" pp1a.fasta

Последовательность зрелого nsp8 в fasta формате доступна по ссылке. Для поиска гомологов данной последовательности был запущен алгоритм blast с теми же параметрами, что и в пункте 1 данного практикума. На выход алгоритм выдал 58 последовательностей белков из различных вирусов. С текстовым результатом работы программы можно ознакомиться по ссылке. Для анализа были выбраны 6 вирусных последовательностей из: Human coronavirus NL63; Porcine epidemic diarrhea virus CV777; Murine hepatitis virus strain 2; Betacoronavirus England 1; Bat SARS CoV Rp3/2004; Severe acute respiratory syndrome-related coronavirus. Последовательности их полипротеинов были загружены в fasta формате и объединены с изучаемым nsp8, после чего выровнены с помощью команды:

muscle -in pp1a_seq.fasta -out pp1a_align.fasta

Далее файл с выравниванием был загружен в программу Jalview, где последовательности были покрашены по проценту идентичности, а также обрезаны по последовательности nsp8. Результат можно увидеть на рисунке 2, а также в файле по ссылке.

В выравнивании довольно высокий процент идентичности и мало инделей, что свидетельствует о том, что между всеми последовательностями в данном выравнивании прослеживается гомология, что соответствует ожиданиям, т.к. все изучаемые последовательности относятся к семейству Coronaviridae.

3) Исследование зависимости E-value от объёма банка

Для оценки доли вирусных белков в базе данных Swiss-Prot был запущен алгоритм blast с теми же параметрами, что и в пункте 2 данного практикума, но с применением фильтра на вирусные белки. Так как E-value прямопропорционален размеру базы данных, в которой идет поиск, по изменению его значения можно сделать вывод о проценте вирусных белков. Для анализа были выбраны 5 последовательностей, изменение E-value было следующим: 6e-130 → 3e-131; 2e-129 → 7e-131; 3e-127 → 1e-128; 1e-124 → 5e-126; 2e-63 → 8e-65. Это говорит о том, что средняя доля вирусных белков в базе данных Swiss-Prot составляет 4,16%.