1. Выравнивание гомологов белка GTPаза с GPN-петлёй PAB0955.

Для поисков гомологов исследуемого белка была использована программа BLAST, расположенная на сайте NCBI, со следующими параметрами (табл. 1). Результат можно увидеть здесь. Были отобраны 5 находок, проведено множественное выравнивание с помощью сервиса на сайте Uniprot вместе с исходным белком. Ссылка на проект.
Можно заметить немногочисленные консервативные участки: 72-75, 110-112. Также можно отметить, что многие участки (до 183 позиции) исследуемого белка сошлись с остальными белками, а начиная с 201 аминокислоты, было найдено очень мало сходств.

Таблица 1. Параметры BLAST.
Параметр Значение
Algorithm parameters
AC Q9UYR9.2
Database UniprotKB/Swiss-Prot
Organism -
Exclude -
BLAST algorithm blastp
General parameters
Max target sequences 100
Expect threshold 0.05
Word size 2
Scoring parameters
Matrix BLOSUM62
Gap Costs Existence: 11 Extension: 1
Filters and masking
Filter -
Mask -

2. Гомологи зрелого вирусного белка, вырезанного из полипротеина.

По результатам поиска вирусных белков в Uniprot (раздел Swiss-Prot), был выбран полипротеин Aura virus. Данный вирус принадлежит к роду Alphavirus, семейству Togaviridae. В поле FT (ключ CHAIN) был выбран фермент РНК-зависимая РНК-полимераза nsP4 (табл. 2). Затем вырезала его из полипротеина, изменив ещё его описание (descseq "sw:POLN_AURAV[1890:2499]" -desc "RNA-directed RNA polymerase nsP4").

На вход в BLAST была подана последовательность данного белка (параметры те же, что в упр.1). Далее выбрала шесть белков, с которыми провела выравнивание в Jalview, удалив участки до первой и после последней буквы находок, не выровненных с какой-либо буквой исходной последовательности.

    Файлы:
  1. Последовательность вырезанного из полипротеина белка;
  2. Текстовая выдача BLAST;
  3. Выравнивание в Jalview. Проводилось с помощью алгоритма Clustal Omega (параметры по умолчанию).
По результатам выравнивания было обнаружено, что примерно до 220 позиции очень мало гомологичных участков. Консервативные участки: 491-493, 580-584.
Таблица 2. Информация о полипротеине Aura virus и о выбранном из него белке.
Полипротеин Aura virus
Раздел UniProt KB Swiss-Prot
UniProt ID POLN_AURAV
UniProt AC Q86924
Organism Aura virus (AURAV)
Выбранный белок
RecName RNA-directed RNA polymerase nsP4
Начало 1890
Конец 2499

3. Исследование зависимости E-value от объёма банка.

Здесь параметры BLAST остаются без изменений, за исключением фильтра по организмам, который здесь применяется (в данном случае - по вирусам). Список находок увеличился с 91 до 98.
Была выбрана находка с АС Q1KZ59.1, принадлежащая вирусу Citrus leprosis virus C BRA/Cordeiropolis. E-value в первом поиске был равен 5e-11, во втором - 2e-12. Путём сравнения этих значений считаем долю вирусных белков. По теореме С.Карлина: E-value=K*m*n*(e^(-λ * S)), где:

  • λ и k - константы;
  • S - вес;
  • m - длина исходной последовательности;
  • n - размер базы данных.
Доля белков в Swiss-Prot (при допущении, что λ и k в обоих поисках постоянны): n(вирусных)/n(общих) = E-value(вирусных)/E-value(общих) = 2e-12/5e-11 = 0.04 (или 4%).

4. Сравнение интерфейсов BLAST на сайте NCBI и Uniprot.

Параметры программы.

Программа здесь работает только с UniprotKB/Swiss-Prot, кластерами и UniParc. Следовательно, на вход она принимает идентификаторы UniprotKB и Uniparc, аминокислотную и нуклеотидную последовательности. По умолчанию порог на E-value - 10, но здесь можно только выбрать среди предложенных значений вместо обычного ввода. Выбор матриц не велик: их всего пять (на NCBI - восемь, включая PAM250, BLOSUM50, BLOSUM90), однако при этом доступна опция "Auto" (матрица выбирается в зависимости от длины запроса). В поле "Filtering" всего две опции: первая соответствует аналогу на NCBI, а вторая - опция параметра "Mask". Также есть параметр "Gapped" (показ гэпов в последовательностях после выпонения сравнения). Максимально выдачу находок можно задать лишь до 1000 (на NCBI - 5000). Ввод word size отсутствует.

Представление результата.

В отличие от BLAST на сайте NCBI, на Uniprot результат представлен проще: на одной странице находятся таблица со списком находок и парное выравнивание находки с запросом (с добавлением цветовых схем) с исследуемым белком. В первой таблице указаны AC, Protein Names, Match Hit (окраска по проценту идентичности), Identity. Информация о ID, AC белка, организме, E-value, Score (нет разделения на Max и Total), Identity, (Un)Reviewed есть во второй. Также возможно посмотреть результат каждого выравнивания ("View alignment" или клик по картинке). Есть также возможность сортировки по весу, E-value и идентичности. Есть возможность редактировать колонки второй таблицы.
Результаты выравниваний раскрашены в зависимости от процента идентичности (в самом верху находится шкала). Описание работы программы расположено внизу страницы.
Текстовая выдача также отличается: нет выравниваний последовательности, вводной части, колонок с Query Cover, описаниями белков, названиями организмов, Taxid, Common Name, Acc. Length.
Однако есть возможность провести выравнивание для отдельных белков, если нажать на флажок с находкой и на кнопку "Align". Также можно снова запустить для них BLAST и посмотреть результаты для них.
Возможны различия с количеством находок, полученных на обоих сайтах.

Достоинства сервиса на Uniprot.

  1. Есть графические схемы, характеризующие степень идентичности с исходным белком;
  2. Возможность редактирования результатов, добавляя или удаляя столбцы таблицы с выравниванием;
  3. Возможность проведения выравнивания и запуска BLAST для отдельных белков;
  4. Возможность выбора в качестве БД кластеры Uniprot;
  5. Возможно, скорость работы программы идёт быстрее, чем на NCBI.

Недостатки сервиса на Uniprot.

  1. Работа программы BLAST ограничивается только Uniprot;
  2. Отсутствие ввода порога на E-value (доступен только выбор предложенных значений), word size;
  3. Отсутствие матриц PAM250, BLOSUM50, BLOSUM90;
  4. Ввод только идентификаторов Uniprot.

Практическое применение сервиса на Uniprot.

Программа BLAST на NCBI удобна в использовании для большинства исследований, но затрачивает много времени из-за word size (2 - выше чувствительность, но ниже скорость работы; 6 - ниже чувствительность, но быстрая работа). На Uniprot - соотственно, для работы не только с аннотированными белками, но из TrEMBL, отсутствующего в качестве БД, принимаемой на вход программе на сайте NCBI. Конечно, возможность выравнивания для отдельных белков, полученных в списке находок на Uniprot, тоже помогает сэкономить время (учитывается и скорость работы).

5. Поиск "гомологов" бессмысленной последовательности.

С помощью программы makeprotseq из пакета EMBOSS была сгенерирована последовательность длины 50 (другие параметры по умолчанию). Далее она была подана на вход программе BLAST.
Итог работы программы: нет находок ни в одной базе данных (даже среди белков модельных организмов из БД pataa), что было ожидаемо.