Тринадцатый практикум

1. Выравнивание гомологов белка GTPаза с GPN-петлёй PAB0955.

Для поисков гомологов исследуемого белка была использована программа BLAST, расположенная на сайте NCBI, со следующими параметрами (табл. 1). Результат можно увидеть здесь. Были отобраны 5 находок, проведено множественное выравнивание с помощью сервиса на сайте Uniprot вместе с исходным белком. Ссылка на проект.
Можно заметить немногочисленные консервативные участки: 72-75, 110-112. Также можно отметить, что многие участки (до 183 позиции) исследуемого белка сошлись с остальными белками, а начиная с 201 аминокислоты, было найдено очень мало сходств.

Таблица 1. Параметры BLAST.

Параметр	Значение
Algorithm parameters
AC	Q9UYR9.2
Database	UniprotKB/Swiss-Prot
Organism	-
Exclude	-
BLAST algorithm	blastp
General parameters
Max target sequences	100
Expect threshold	0.05
Word size	2
Scoring parameters
Matrix	BLOSUM62
Gap Costs	Existence: 11 Extension: 1
Filters and masking
Filter	-
Mask	-

2. Гомологи зрелого вирусного белка, вырезанного из полипротеина.

По результатам поиска вирусных белков в Uniprot (раздел Swiss-Prot), был выбран полипротеин Aura virus. Данный вирус принадлежит к роду Alphavirus, семейству Togaviridae. В поле FT (ключ CHAIN) был выбран фермент РНК-зависимая РНК-полимераза nsP4 (табл. 2). Затем вырезала его из полипротеина, изменив ещё его описание (descseq "sw:POLN_AURAV[1890:2499]" -desc "RNA-directed RNA polymerase nsP4").

На вход в BLAST была подана последовательность данного белка (параметры те же, что в упр.1). Далее выбрала шесть белков, с которыми провела выравнивание в Jalview, удалив участки до первой и после последней буквы находок, не выровненных с какой-либо буквой исходной последовательности.

Последовательность вырезанного из полипротеина белка;
Текстовая выдача BLAST;
Выравнивание в Jalview. Проводилось с помощью алгоритма Clustal Omega (параметры по умолчанию).

По результатам выравнивания было обнаружено, что примерно до 220 позиции очень мало гомологичных участков. Консервативные участки: 491-493, 580-584.

Таблица 2. Информация о полипротеине Aura virus и о выбранном из него белке.

Полипротеин Aura virus
Раздел UniProt KB	Swiss-Prot
UniProt ID	POLN_AURAV
UniProt AC	Q86924
Organism	Aura virus (AURAV)
Выбранный белок
RecName	RNA-directed RNA polymerase nsP4
Начало	1890
Конец	2499

3. Исследование зависимости E-value от объёма банка.

Здесь параметры BLAST остаются без изменений, за исключением фильтра по организмам, который здесь применяется (в данном случае - по вирусам). Список находок увеличился с 91 до 98.
Была выбрана находка с АС Q1KZ59.1, принадлежащая вирусу Citrus leprosis virus C BRA/Cordeiropolis. E-value в первом поиске был равен 5e-11, во втором - 2e-12. Путём сравнения этих значений считаем долю вирусных белков. По теореме С.Карлина: E-value=K*m*n*(e^(-λ * S)), где:

λ и k - константы;
S - вес;
m - длина исходной последовательности;
n - размер базы данных.

Доля белков в Swiss-Prot (при допущении, что λ и k в обоих поисках постоянны): n(вирусных)/n(общих) = E-value(вирусных)/E-value(общих) = 2e-12/5e-11 = 0.04 (или 4%).

4. Сравнение интерфейсов BLAST на сайте NCBI и Uniprot.

Параметры программы.

Программа здесь работает только с UniprotKB/Swiss-Prot, кластерами и UniParc. Следовательно, на вход она принимает идентификаторы UniprotKB и Uniparc, аминокислотную и нуклеотидную последовательности. По умолчанию порог на E-value - 10, но здесь можно только выбрать среди предложенных значений вместо обычного ввода. Выбор матриц не велик: их всего пять (на NCBI - восемь, включая PAM250, BLOSUM50, BLOSUM90), однако при этом доступна опция "Auto" (матрица выбирается в зависимости от длины запроса). В поле "Filtering" всего две опции: первая соответствует аналогу на NCBI, а вторая - опция параметра "Mask". Также есть параметр "Gapped" (показ гэпов в последовательностях после выпонения сравнения). Максимально выдачу находок можно задать лишь до 1000 (на NCBI - 5000). Ввод word size отсутствует.

Представление результата.

В отличие от BLAST на сайте NCBI, на Uniprot результат представлен проще: на одной странице находятся таблица со списком находок и парное выравнивание находки с запросом (с добавлением цветовых схем) с исследуемым белком. В первой таблице указаны AC, Protein Names, Match Hit (окраска по проценту идентичности), Identity. Информация о ID, AC белка, организме, E-value, Score (нет разделения на Max и Total), Identity, (Un)Reviewed есть во второй. Также возможно посмотреть результат каждого выравнивания ("View alignment" или клик по картинке). Есть также возможность сортировки по весу, E-value и идентичности. Есть возможность редактировать колонки второй таблицы.
Результаты выравниваний раскрашены в зависимости от процента идентичности (в самом верху находится шкала). Описание работы программы расположено внизу страницы.
Текстовая выдача также отличается: нет выравниваний последовательности, вводной части, колонок с Query Cover, описаниями белков, названиями организмов, Taxid, Common Name, Acc. Length.
Однако есть возможность провести выравнивание для отдельных белков, если нажать на флажок с находкой и на кнопку "Align". Также можно снова запустить для них BLAST и посмотреть результаты для них.
Возможны различия с количеством находок, полученных на обоих сайтах.

Достоинства сервиса на Uniprot.

Есть графические схемы, характеризующие степень идентичности с исходным белком;
Возможность редактирования результатов, добавляя или удаляя столбцы таблицы с выравниванием;
Возможность проведения выравнивания и запуска BLAST для отдельных белков;
Возможность выбора в качестве БД кластеры Uniprot;
Возможно, скорость работы программы идёт быстрее, чем на NCBI.

Недостатки сервиса на Uniprot.

Работа программы BLAST ограничивается только Uniprot;
Отсутствие ввода порога на E-value (доступен только выбор предложенных значений), word size;
Отсутствие матриц PAM250, BLOSUM50, BLOSUM90;
Ввод только идентификаторов Uniprot.

Практическое применение сервиса на Uniprot.

Программа BLAST на NCBI удобна в использовании для большинства исследований, но затрачивает много времени из-за word size (2 - выше чувствительность, но ниже скорость работы; 6 - ниже чувствительность, но быстрая работа). На Uniprot - соотственно, для работы не только с аннотированными белками, но из TrEMBL, отсутствующего в качестве БД, принимаемой на вход программе на сайте NCBI. Конечно, возможность выравнивания для отдельных белков, полученных в списке находок на Uniprot, тоже помогает сэкономить время (учитывается и скорость работы).

5. Поиск "гомологов" бессмысленной последовательности.

С помощью программы makeprotseq из пакета EMBOSS была сгенерирована последовательность длины 50 (другие параметры по умолчанию). Далее она была подана на вход программе BLAST.
Итог работы программы: нет находок ни в одной базе данных (даже среди белков модельных организмов из БД pataa), что было ожидаемо.