BLAST
На данной странице представлен практикум по использованию программы BLAST (Basic Local Alignment Search Tool)
и его веб-интерфейса на сайте NCBI.
1) Поиск гомологов белка из практикума 8
Для поиска гомологов субъединицы C цитохрома фотосинтетического реакционного центра пурпурной бактерии Blastochloris viridis из практикума 8 был запущен алгоритм BLAST со следующими параметрами:
Параметр | Значение |
---|---|
Algorithm | blastp |
Database | UniProtKB/SwissProt |
Max target sequences | 100 |
Short queries | On |
Expect value | 0,05 |
Word size | 3 |
Gapcosts | 11,1 |
Matrix | BLOSUM62 |
Window Size | 40 |
В результате алгоритм выдал 5 последовательностей (не включая ту, по которой проводился поиск) белков из: Allochromatium vinosum DSM 180; Rubrivivax gelatinosus IL144; Thermochromatium tepidum; Roseobacter denitrificans OCh 114; Chloroflexus aurantiacus J-10-fl. Все белки выполняют роль цитохрома в электрон-транспортной цепи фотосинтетических комплексов данных бактерий. С текстовым результатом работы программы можно ознакомиться по ссылке. Найденные последовательности были загружены в формате fasta и выровнены с помощью команды:
Далее файл с выравниванием был загружен в программу Jalview, где последовательности были покрашены по проценту идентичности. Результат можно увидеть на рисунке 1, а также в файле по ссылке.
В выравнивании обнаруживается 4 (145-172; 191-220; 315-332; 413-434) относительно консервативных участка, вероятно, участвующих в связывании 4 гемов или других участников электрон-транспортной цепи цитохрома. Выделяющейся является последовательность цитохрома из Chloroflexus aurantiacus, в выравнивании которой присутствует большое количество инделей, что, возможно, свидетельствует об отсутствии гомологии с остальными белками, но точный вывод об этом сделать невозможно, так как C. aurantiacus является единственным представителем типа Chloroflexi, тогда как остальные бактерии относятся к типу Proteobacteria. Общий предок между этими типами был настолько давно, что узучаемые последовательности вполне могли так сильно измениться.
2) Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина
Таксономия вируса:
Superkingdom: Viruses
Clade: Riboviria
Kingdom: Orthornavirae
Phylum: Pisuviricota
Class: Pisoniviricetes
Order: Nidovirales
Suborder: Cornidovirineae
Family: Coronaviridae
Subfamily: Orthocoronavirinae
Genus: Betacoronavirus
Subgenus: Sarbecovirus
Host: Homo sapiens (Human)
Severe acute respiratory syndrome coronavirus 2
2019-nCoV, SARS-CoV-2
Информация о полипротеине:
UniProt ID: R1A_SARS2
UniProt AC: P0DTC1
Molecular weight: 489989 Da
Length: 4405 AA
Recommended UniProt name: Replicase polyprotein 1a
Short recommended UniProt name: pp1a
Alternative UniProt name: ORF1a polyprotein
Organism name: Severe acute respiratory syndrome coronavirus 2 (2019-nCoV) (SARS-CoV-2)
Поиск гомологов зрелого вирусного белка проводился для полипротеина из коронавируса SARS-CoV-2. В данном вирусе обнаруживается один полипротеин, состоящий из 10 незрелых белков, 9 из которых не входят в зрелую вирусную частицу (неструктурные вирусные белки - non-structural protein(nsp)), а выполняют функции репликации РНК в клетке хозяина; созревания, упаковки и выхода вириона из клетки. Для анализа был выбран non-structural protein 8 (nsp8), который выполняет функцию праймазы в комплексе с nsp7, образуя шестнадцатисубъединичный комплекс (по 8 субъединиц nsp7 и nsp8). Информация о координатах белка в полипротеине была получена со страницы Uniprot: начало - 3943 а/к, конец - 4140 а/к. Далее для получения последовательности зрелого белка была выполнена следующая команда:
Последовательность зрелого nsp8 в fasta формате доступна по ссылке. Для поиска гомологов данной последовательности был запущен алгоритм blast с теми же параметрами, что и в пункте 1 данного практикума. На выход алгоритм выдал 58 последовательностей белков из различных вирусов. С текстовым результатом работы программы можно ознакомиться по ссылке. Для анализа были выбраны 6 вирусных последовательностей из: Human coronavirus NL63; Porcine epidemic diarrhea virus CV777; Murine hepatitis virus strain 2; Betacoronavirus England 1; Bat SARS CoV Rp3/2004; Severe acute respiratory syndrome-related coronavirus. Последовательности их полипротеинов были загружены в fasta формате и объединены с изучаемым nsp8, после чего выровнены с помощью команды:
Далее файл с выравниванием был загружен в программу Jalview, где последовательности были покрашены по проценту идентичности, а также обрезаны по последовательности nsp8. Результат можно увидеть на рисунке 2, а также в файле по ссылке.
В выравнивании довольно высокий процент идентичности и мало инделей, что свидетельствует о том, что между всеми последовательностями в данном выравнивании прослеживается гомология, что соответствует ожиданиям, т.к. все изучаемые последовательности относятся к семейству Coronaviridae.
3) Исследование зависимости E-value от объёма банка
Для оценки доли вирусных белков в базе данных Swiss-Prot был запущен алгоритм blast с теми же параметрами, что и в пункте 2 данного практикума, но с применением фильтра на вирусные белки. Так как E-value прямопропорционален размеру базы данных, в которой идет поиск, по изменению его значения можно сделать вывод о проценте вирусных белков. Для анализа были выбраны 5 последовательностей, изменение E-value было следующим: 6e-130 → 3e-131; 2e-129 → 7e-131; 3e-127 → 1e-128; 1e-124 → 5e-126; 2e-63 → 8e-65. Это говорит о том, что средняя доля вирусных белков в базе данных Swiss-Prot составляет 4,16%.