Back to the second term

Работа с программой BLASTP


Basic Local Alignment Search Tool


Поиск белка CAPP_ECOLI по его последовательности


Был проведён поиск последовательности фосфоенолпируваткарбоксилазы E.coli в банке данных Swissprot с помощью программы BLASTP на сервере NCBI. В выданных программой результатах нужный нам белок находился на первом месте (то есть имел порядковый номер 1), что очевидно, ибо выравнивание последовательности самой с собой имеет стопроцентную идентичность и наивысший вес, который в данном случае равнялся 1697 битов (4396). NB: Конкретнее о двойном значении веса можно прочитать на странице "Матрицы переходов глобального и локального выравнивания". E-value равно 0.

Поиск того же белка по его последовательности был повторён, однако уже не в Swissprot, а в банке данных PDB. Удобней будет привести полученные данные в виде таблицы:


Название белка Банк данных Порядковый номер белка в выдаче PDB-код Идентификатор цепи Вес (Score) E-value Начало и конец выравнивания
во входной последовательности
(Query)
Начало и конец
выравнивания в находке
(Subject)
Процент совпадений (Identity)
фосфоенол-
пируваткар-
боксилаза E.coli
PDB 1 1JQN A 1697 битов (4396) 0 Начало - 1
Kонец - 883
Начало - 1
Kонец - 883
100%

Как видно, результаты двух поисков позволяют нам заключить, что найденная 3D-структура в банке данных PDB соответствует белку, найденному в Swissprot, которые в свою очередь являются ничем иным, как фосфоенолпируваткарбоксилазой E.coli. Сделать такой вывод нам позволяет стопроцентная идентичность выравнивания в обоих случаях, совершенно одинаковый вес, E-value, совпавшие начало и конец выравнивания как во входной, так и в найденной последовательностях.


Поиск белка CAPP_ECOLI по его гомологу


Теперь поиск основан на последовательности гомологичного фосфоенолпируваткарбоксилазе E.coli белка CAPP_YERPE из Yersinia Pestis.


Название гомолога Банк данных Порядковый номер искомого белка в выдаче Вес (Score) E-value Начало и конец выравнивания
во входной последовательности
(Query)
Начало и конец
выравнивания в находке
(Subject)
Процент совпадений (Identity)
Фосфоенол-
пируват-
карбоксилаза
Yersinia Pestis
Swissprot 8 1441 бит (3730) 0 Начало - 1
Kонец - 883
Начало - 1
Kонец - 878
82%

Такой результат поиска показывает, что CAPP_ECOLI и CAPP_YERPE являются достаточно близкими гомологами (процент идентичности высок, E-value равно нулю).
На выдаче белок с порядковым номером 1 был ничем иным как фосфоенолпируваткарбоксилазой Yersinia Pestis, то есть белком, чья последовательность подавалась на входе.


Поиск белка CAPP_ECOLI по фрагментам его последовательности


Последовательность
на входе
Банк данных Порядковый номер искомого белка в выдаче Вес (Score) E-value Начало и конец выравнивания
во входной последовательности
(Query)
Начало и конец
выравнивания в находке
(Subject)
Процент совпадений (Identity)
thirdprot.fasta Swissprot 3 32.3 бита (72), 27.7 битов (60) (*) 0.34, 8.4 (*) Начало - 13, 1 (*)
Kонец - 25, 13 (*)
Начало - 774, 459 (*)
Kонец - 786, 471 (*)
100%

(*) - Поскольку выравниваний было два, согласно тому, что искусственная последовательность создавалась из двух кусочков последовательности нашего белка, то значения веса, E-value, начала и конца выравниваний входной и найденной последовательности указывались дважды, соответственно - первое значение для первого выравнивания, второе - для второго.
Что касается поиска в целом, то стоит отметить то, что программа BLASTP позволяет находить последовательности нужного белка по таким, казалось бы, чрезвычайно маленьким фрагментам (25 аминокислотных остатков) последовательности, поэтому BLASTP отлично подходит для решения таких задач, какие мы выполнили выше.



Является ли BLAST инструментом для поиска ортологов?


С помощью SRS была найдена последовательность репрессора рибозного оперона RBSR_BACSU из Bacillus subtilis (RBSR_BACSU.fasta). Затем посредством BLASTP был осуществлён поиск. В находке программа выдала порядка ста выравниваний, однако взяты были только первые двадцать. За ортологи принимались те белки, в названии которых есть слово RbsR. Таких белков оказалось пять, не считая белка RBSR_BACSU, чья последовательность вводилась на входе:

Все шесть белков из двадцати являются репрессорами рибозного оперона, посему считаются в первом приближении оротлогами, то есть это последовательности, возникшие из одного предшественника в процессе видообразования и как правило, имеющие сходную функцию.


Оставшиеся же четырнадцать белков близки последовательностями к RBSR_BACSU, однако выполняют иные функции: регуляцию катабализма, транскрипционную регуляцию, репрессирование сахарозного оперона (Surose operon) и др. Скорее всего они являются паралогами для RBSR_BACSU, то есть последовательностями, возникшими из одного предшественника вместе с RBSR_BACSU в результате дупликации одного гена в одном организме. Паралоги обычно различаются по функциям.


В результате нельзя стопроцентно считать BLASTP программой пригодной для поиска ортологов, поскольку ортологи хоть и находятся BLASTP, но в подавляющей массе с паралогами. Итоговое заключение состоит в том, что однозначно BLASTP - это программа для поиска гомологов, как ортологов, так и паралогов, для некоего изучаемого белка.


Разные пользовательские интерфейсы BLAST


Та версия BLASTP, в которой выполнялись поставленные перед нами задачи, изложенные выше, находится на сервере NCBI. Помимо этого существют и другие ресурсы, где можно поработать с подобной программой, в частности на сервере EBI и на сервере Пастеровского института. Для того, чтобы сравнить три ресурса BLASTP, повторим второе задание по поиску последовательности белка по его гомологу поочерёдно на сервере EBI и на сервере Пастеровского института. Результаты сравнения оформим в виде такблицы:


 NCBI, BLAST   EMBL-EBI, NCBI-BLAST2   BLAST2 на сервере
Пастеровского института 
Главная страница
Отдельное окно для:
  1. blastp(поиск белковых
    последовательностей);
  2. blastn (поиск нуклеотидных
    последовательностей);
  3. blastx (поиск белковых
    последовательностей
    по транслируемым
    нуклеотидным
    последовательностям);
  4. tblastn и tblastx.
Отдельное окно для:
  1. blastp(поиски белковых
    последовательностей),
    blastx (поиск белковых
    последовательностей
    по транслируемым
    нуклеотидным
    последовательностям);
  2. blastn (поиск нуклеотидных
    последовательностей);

Отсутствиие tblastn и tblastx.

Все прoграммы: blastp, blastn, blastx, tblastn, tblastx, psitblast - находятся в одном окне. Программ больше по сравнению с двумя другими версиями.

Доступные матрицы переходов aминокислотных замен: BLOSUM62, BLOSUM80, BLOSUM45, PAM30, PAM70.

Доступные матрицы переходов aминокислотных замен:
BLOSUM62, BLOSUM80, PAM30, PAM70, none.

Выбор матрицы переходов не предусмотрен, предположительно стандартные настройки соотчетствуют матрице BLOSUM62.

Банки данных: nr, refseq, swissprot, pat, pdb, env_nr, month.

Банки данных: UniProt, UniRef100, UniRef90, UniRef50, UniParc, Swissprot, ipi, pdb, sgt, prints, imgthlap.

Сравнительно больший выбор банков данных для белков и нуклеотидов.

Установка Expect произвольная, равная по умолчанию 10.

Expect: 0.0001, 0.01, 0.1, 1.0, 10, 100, 1000, default.

Установка Expect произвольная, равная по умолчанию 10.

У параметра Format есть несколько характеристик: Show (вид окна результата), Masking Charcter, Masking Color (цвет совпавших участков в выравнивании), Alignment view (вид выравнивания - pairwise по умолчанию) и другие.

Format: BLASTXML, default. Обширный выбор видов выравниваний (Alignment view - pairwise по умолчанию).

Формат согласно нужному банку данных выставляется вручную.

Existence (открыти гэпов):7, 8, 9, 10, 11, 12.
Extension (продолжение гэпов):1, 2.

Opengap: 9, 10, 11, default.
Extendgap: 0, 1, 2.

Установка значений штрафов за открытие и продолжение гэпов не предусмотрена, видимо, в программе "зашит" стандарт.

Возможность ограничить поиск одним видом организма. Такой возможности не предусмотрено.
Файл-результат
Запрос обрабатывается отнюдь не моментально, приходится ждать непредсказуемое количество времени, обычно около двух-трёх минут, но это как говорится "обычно", на самом же деле обработка данным может затянуться на неопределённое время, как это случилось с запросом на сервере Пастеровского института.
Результат выдаётся непосредственно на странице ресурса в новом окне результатов.

Файл с результатами присылается по электронной почте. Возможно, такая особенность является ценной находкой, потому что сразу же позволяет нам сохранить "без проблем" все результаты, однако это значительно увеличивает время ожидания результатов, ну и к тому же при пересылке не исключены незапланированные ошибки или потери, так что навскидку идея с электронной почтой не очень удалась, особенно при таком низком качестве визуальной подачи результатов, о которой сказано в графах ниже.

HTMLVIEW. Страничка выдачи в виде документа с разрешением cgi (Common Gateway Interface). Обилие полезных ссылок на информацию о белках в установленном банке данных. Есть полезная иллюстрация линейной схемы всех выравниваний и цветными ключами для весов выравниваний. Линии, оответствующие каждому выравниванию, являются также ещё и ссылками, а в окошке выше отображается, с какой из найденных последовательностей постороено интересующее нас выравнивание. При нажатии на одну из линий-выравниваний окно автоматически показывает соответствующее выравнивание.

HTMLVIEW. Удобная сводка всех данных в таблицах, нумерация последовательностей. Обилие ссылок. Данные более структурированны и упорядоченны, так что просматривать такой результат чрезвычайно приятно.

Текстовый файл без ссылок и без выделений, так что работать с таким документом становится очень трудно и неудобно. Абсолютно не продуманная навигация.

Выравнивания в том же окошке результатов непосредственно после списка найденных белков. Проблема навигации решена с помощью схемы выравниваний в виде линий.

Чтобы увидеть выравнивание, необходимо нажать на специальную кнопку Show Alignments, а затем долго и упорно ждать.

Выравнивания в том же окошке результатов непосредственно после списка найденных белков. Адекватная навигация отсутствует - мышкой прокручиваем полотно текста и ищем среди моря выравниваний нужное:)

Количество найденных последовательностей 100.

Количество найденных последовательностей 50.

Количество найденных последовательностей 500.

Параметры выравниваний идентичности, ибо в обоих случаях:
Existence = 11;
Extention = 1.
Однако почему отличаются вес, установить, к сожалению, не удалось. Видимо, существуют разные пути вычисления весов.
Existence = 10;
Extention = 1.

Вес 1336 битов (3796;
Процент идентичности 82%;
E-value = 0;
Гэпы 5/883 = 0%.

Вес 1439 битов (3724);
Процент идентичности 82%;
E-value = 0;
Гэпы 5/883 = 0%.

Вес 1440 битов (3728);
Процент идентичности 80%;
E-value = 0;
Гэпы 5/883 = 0%.



В целом, обобщая результаты таблицы сравнения, сразу можно сказать, что ресурс на сервере Пастеровского института явно уступает практически по всем параметрам. Исходя из отмеченных моментов, у него нет никаких преимуществ перед NCBI и EBI, разве что более расширенный поиск в плане банков данных и наличие большего количества доступных разновидностей "бластовских" программ. Конечно, я бы не стала работать на этом сервере при отсутствии исключительной необходимости, имея такую альтернативу, как NCBI-BLAST и EMBL-EBI BLAST2.


Что касается выбора между двумя оставшимися ресурсами, то у каждого имеются как свои достоинства, так и недостатки, преимущества и наоборот. Тут выбор становится отчасти субъективным: кому как нравится. К примеру, кому-то удобней воспринимать выравнивания все вместе на одной странице, как на сервере NCBI а кто-то предпочитает всё более разложенное по полочкам, как у EMBL-EBI BLAST2. Лично я предпочла бы сервер EBI: хоть он немного медленнее NCBI, но данные подаются более аккуратно и систематически.



Спустя шесть часов, сервер Пастеровского института прислал-таки файл с окончательными результатами поиска, содержащий не только текстовый файл и html-версию. После её изучения выяснилось много нового. Главное, что полученная версия практически полностью повторяет версию NCBI-сервера: очень похожий стиль, есть схема линейных выранивний, цветовое обозначение веса согласно его величине, оригинальные ссылки по линиям выравниваний, ссылки на информацию о найденных белках из банка данных. В общем, в конце концов выяснилось, что сервер Пастеровского института не так уж плох, только чрезвычайно медленный.

© Анна Чебышева,2005