Для поисков гомологов исследуемого белка была использована программа BLAST, расположенная на сайте NCBI, со следующими параметрами (табл. 1). Результат можно увидеть здесь. Были отобраны 5 находок, проведено множественное выравнивание с помощью сервиса на сайте Uniprot вместе с исходным белком. Ссылка на проект.
Можно заметить немногочисленные консервативные участки: 72-75, 110-112. Также можно отметить, что многие участки (до 183 позиции) исследуемого белка сошлись с остальными белками, а начиная с 201 аминокислоты, было найдено очень мало сходств.
Параметр | Значение |
---|---|
Algorithm parameters | |
AC | Q9UYR9.2 |
Database | UniprotKB/Swiss-Prot |
Organism | - | Exclude | - | BLAST algorithm | blastp |
General parameters | |
Max target sequences | 100 |
Expect threshold | 0.05 |
Word size | 2 |
Scoring parameters | |
Matrix | BLOSUM62 |
Gap Costs | Existence: 11 Extension: 1 |
Filters and masking | |
Filter | - |
Mask | - |
По результатам поиска вирусных белков в Uniprot (раздел Swiss-Prot), был выбран полипротеин Aura virus. Данный вирус принадлежит к роду Alphavirus, семейству Togaviridae. В поле FT (ключ CHAIN) был выбран фермент РНК-зависимая РНК-полимераза nsP4 (табл. 2). Затем вырезала его из полипротеина, изменив ещё его описание (descseq "sw:POLN_AURAV[1890:2499]" -desc "RNA-directed RNA polymerase nsP4").
На вход в BLAST была подана последовательность данного белка (параметры те же, что в упр.1). Далее выбрала шесть белков, с которыми провела выравнивание в Jalview, удалив участки до первой и после последней буквы находок, не выровненных с какой-либо буквой исходной последовательности.
Полипротеин Aura virus | |
---|---|
Раздел UniProt KB | Swiss-Prot |
UniProt ID | POLN_AURAV |
UniProt AC | Q86924 |
Organism | Aura virus (AURAV) |
Выбранный белок | |
RecName | RNA-directed RNA polymerase nsP4 |
Начало | 1890 |
Конец | 2499 |
Здесь параметры BLAST остаются без изменений, за исключением фильтра по организмам, который здесь применяется (в данном случае - по вирусам). Список находок увеличился с 91 до 98.
Была выбрана находка с АС Q1KZ59.1, принадлежащая вирусу Citrus leprosis virus C BRA/Cordeiropolis. E-value в первом поиске был равен 5e-11, во втором - 2e-12. Путём сравнения этих значений считаем долю вирусных белков. По теореме С.Карлина: E-value=K*m*n*(e^(-λ * S)), где:
Программа здесь работает только с UniprotKB/Swiss-Prot, кластерами и UniParc. Следовательно, на вход она принимает идентификаторы UniprotKB и Uniparc, аминокислотную и нуклеотидную последовательности. По умолчанию порог на E-value - 10, но здесь можно только выбрать среди предложенных значений вместо обычного ввода. Выбор матриц не велик: их всего пять (на NCBI - восемь, включая PAM250, BLOSUM50, BLOSUM90), однако при этом доступна опция "Auto" (матрица выбирается в зависимости от длины запроса). В поле "Filtering" всего две опции: первая соответствует аналогу на NCBI, а вторая - опция параметра "Mask". Также есть параметр "Gapped" (показ гэпов в последовательностях после выпонения сравнения). Максимально выдачу находок можно задать лишь до 1000 (на NCBI - 5000). Ввод word size отсутствует.
В отличие от BLAST на сайте NCBI, на Uniprot результат представлен проще: на одной странице находятся таблица со списком находок и парное выравнивание находки с запросом (с добавлением цветовых схем) с исследуемым белком. В первой таблице указаны AC, Protein Names, Match Hit (окраска по проценту идентичности), Identity. Информация о ID, AC белка, организме, E-value, Score (нет разделения на Max и Total), Identity, (Un)Reviewed есть во второй. Также возможно посмотреть результат каждого выравнивания ("View alignment" или клик по картинке). Есть также возможность сортировки по весу, E-value и идентичности. Есть возможность редактировать колонки второй таблицы.
Результаты выравниваний раскрашены в зависимости от процента идентичности (в самом верху находится шкала). Описание работы программы расположено внизу страницы.
Текстовая выдача также отличается: нет выравниваний последовательности, вводной части, колонок с Query Cover, описаниями белков, названиями организмов, Taxid, Common Name, Acc. Length.
Однако есть возможность провести выравнивание для отдельных белков, если нажать на флажок с находкой и на кнопку "Align". Также можно снова запустить для них BLAST и посмотреть результаты для них.
Возможны различия с количеством находок, полученных на обоих сайтах.
Программа BLAST на NCBI удобна в использовании для большинства исследований, но затрачивает много времени из-за word size (2 - выше чувствительность, но ниже скорость работы; 6 - ниже чувствительность, но быстрая работа). На Uniprot - соотственно, для работы не только с аннотированными белками, но из TrEMBL, отсутствующего в качестве БД, принимаемой на вход программе на сайте NCBI. Конечно, возможность выравнивания для отдельных белков, полученных в списке находок на Uniprot, тоже помогает сэкономить время (учитывается и скорость работы).
С помощью программы makeprotseq из пакета EMBOSS была сгенерирована последовательность длины 50 (другие параметры по умолчанию). Далее она была подана на вход программе BLAST.
Итог работы программы: нет находок ни в одной базе данных (даже среди белков модельных организмов из БД pataa), что было ожидаемо.