На главную страницу второго семестра.

Занятие 8. Программа BLASTP.



Задание №1.

  1. Поиск белка по его последовательности.


    На сервере NCBI был проведён поиск последовательности моего белка ARGB_ECOLI программой BLASTP в банке swissprot. В выдаче программы найден мой белок и в таблице занесены ответы на вопросы, поставленные в задании:
    
    Порядковый номер в выдаче: первый
    Score = 459 bits
    E-value = 4e-129
    
  2. Поиск последовательностей по pdb-идентификатору.


Повторен поиск с той же входной последовательностью, но теперь указан в качестве банка pdb. Ответы на вопросы также оформлены ввиде таблицы:

PDB-коды: 1OHB,1OHA, 1OH9, 1GSS
Идентификаторы цепей: все идентификаторы оказались одинаковыми - CHAIN A.
Score: 441 bits
E-value: 3e-130
Начало и конец выравнивания у входной последовательности (Query) и у находки (Subject): 
выравнивание последовательностей охватывает участки с первой до последней аминокислот.
Процент совпадений (Identity): 100% 

Комментарии:


Для облегчения понимания, я решил оформить комментарии увиденных результатов поиска в банках Swissprot и pdb по принципу сравнения:

Задание №2. Поиск белка по его гомологу.


Ввожу в поле поиска последовательность ARGB_ACIAD.fasta (соответствующая последовательности Secondprot.fasta). Эта последовательность из протеома Acinetobacter, найденная программой SRS на сервере EBI, вероятно является гомологом ARGB_ECOLI. Анализ на наличие последовательности моего белка в результатах поиска приведен в таблице:

Порядковый номер последовательности ARGB_ECOLI - 111 (включая QUERY: последовательность ARGB_ACIAD)
Score = 115 bits
E-value = 2e-25
Начало и конец выравнивания во входной последовательности (Query) и в находке (ARGB_ECOLI):   (*)
у входной последовательности ARGB_ACIAD выравнивание начинается с 29 аминокислоты, кончается на 262-ой.
В найденной последовательности ARGB_ECOLI выравнивание начинается с 5-ой аминокислоты, завершается 226-ой. 
Процент совпадений: 31% (*)

(*) произошла некоторым образом детективная история: результат программы BLASTP оказался очень большим и все выравнивания с e-value выше 5е-67 просто не отобразились на экране. Поэтому пришлось пойти на хитрость: в строке параметров "Limit results by entrez query or select from:" выбрал Escherihia Coli, чтобы в числе находок были белки только из EColi. Так удалось заполучить недостающие данные.
В задании также спрашивается: "Является ли первая по счету находка тем самым белком, чья последовательность была подана на вход?" С уверенностью можно сказать, что последовательность, введенная в поиск: ARGB_ACIAD - является первой в строке поиска BLASTP.

Задание №3. Поиск белка по фрагментам его последовательности


Проведен поиск в банке swissprot программой BLASTP белков, возможно чем-то похожих на последовательность из файла thirdprot.fasta, которая была подана в окно поиска. В таблице также занесены ответы на вопросы, которые были заданы в предыдущем задании:

Порядковый номер последовательности ARGB_ECOLI - 3 
Score = 35.8 bits
E-value = 0,026
Начало и конец выравнивания во входной последовательности (Query) и в находке (ARGB_ECOLI): 
Выравнивание последовательности из файла Thirdprot.fasta полностью совпало с участками из белка ARGB_ECOLI,
которые были взяты для создания этого пептида: выравнивание начинается с первых аминокислот обоих белков, 
и заканчивается: у пептида Thirdprot на 21-ой аминокислоте, у белка ARGB_ECOLI - на 39-ой аминокислоте.
Процент совпадений: 53%

Выводы:

Задание №4. Разные пользовательские интерфейсы BLAST


Я повторно выполнил предыдущее задание (поиск белка по фрагментам его последовательности) на сервере EBI и на сервере Пастеровского института.
Программа BLAST на сервере EBI выдала результаты поиска в Swissprot'e, ничем не отличимые от результатов программы BLASTP на сервере NCBI, но способ представления этих результатов намного отличается от NCBI: во-первых, результаты появляются в том же окне, что и запрос, а это очень неудобно, когда приходится делать несколько выравниваний параллельно; во-вторых, выравнивания запрашиваемого пептида с возможными гомологами не представлены в одном окне результатов, как это есть на сервере NCBI (хоть это отличие двух серверов не очень значительно, но все же наличие необходимой информации в простом и понятном формате, на одной странице и прекрасно организованной, как это есть на сервере NCBI, значительно упрощает жизнь ученому!!). Но все же есть и свои плюсы: результаты собраны в одной таблице, в которой указаны номер гомолога в выдаче, его ID, синонимичные названия, длина последовательности возможного гомолога, вес локального выравнивания, проценты идентичности и сходства, e-value; ID каждой последовательности является ссылкой на swissprot'овское описание (причем очень красиво оформленное!!); на самом верху листа результатов указаны параметры построения локального выравнивания: Database, в которой проводился поиск, тип биологического текста (белковая или нуклеотидная последовательность), программа выравнивания, её версия, матрица аминокислотных замен, штрафы за открытие и продолжение гэпов. А ещё представлены различные ссылки:
Программа BLAST на сервере Пастеровского института выдала результаты поиска в Swissprot'e несколько отличные от результатов на сервере NCBI: было найдено девять последовательностей, а не шесть. Но это можно объяснить тем, что в результатах фигурируют разные штаммы ECOLI, отчего количество выравниваний повысилось. Но в целом, сервер неплохой, хотя не без изъянов. При составлении запроса требуется обязательно ввеcти свой email, иначе программа не заработает: причем результаты выравнивания отправляются либо по почте, либо доступны интерактивно; также результаты представляются в том же окне, где вводился запрос на поиск; возможный минус: нужно пройти несколько ссылок на различные страницы, прежде чем выйдете на страницу результатов; но в целом интерфейс вывода результатов похож на интерфейс, реализуемый на сервере NCBI.

Задание №5. Является ли BLAST инструментом для поиска ортологов?


Предлагаю подойти к решению данной проблемы с формальной стороны. По определению, ортологи - последовательности, произошедшие в результате видообразования из одной последовательности и расположенные в разных организмах. Причем ортологи как правило ответственны за одну и ту же функцию. Для выяснения данного вопроса необходимая последовательность белка RBSR_BACSU была взята с сервера ExPASy.org и затем использована для поиска возможных гомологов программой BLASTP. В результате, программа нашла 90 различных последовательностей с довольно хорошими e-value: от 3е-67 до 7,8. Как сказано в задании:"В первом приближении будем считать ортологами те последовательности, в названии которых стоит слово RbsR", то можно заметить, что в списке найденных последовательностей есть следующие белки:

RBSR_BACHD, e-value=3e-67 
RBSR_LACLA, e-value=2e-63
RBSR_PASMU, e-value=1e-33
RBSR_HAEIN, e-value=6e-30
RBSR_SHIFL, e-value=5e-29

В описании всех этих белков сказано, что они выполняют одну функцию: репрессия рибозного оперона; все эти белки найдены в разных организмах, о чем свидетельствует ID этих белков и краткое описание. Также, посмотрев на выравнивания последовательностей этих белков с RBSR_BACSU и используя знания о консервативном домене, присутствующем в последовательности RBSR_BACSU, я заметил, что тот же функциональный домен есть и в найденных белках. Ясно, что эти данные свидетельствуют о том, что белки являются ортологами (опираясь на выше изложенное определение). Но не стоит забывать о том, что эти пять белков были найдены в выборке размером в девяносто белков! Причем среди них есть как белки из того же организма, что и RBSR_BACSU (значит, это потенциальные паралоги), так и репрессоры других углеводных оперонов. Поэтому напрашивается вывод: BLASTP нашел возможные гомологи, но при этом без дифференциации на ортологов или парологов. Таким образом, BLASTP вполне может использоваться как инструмент для поиска гомологов, среди которых можно идентифицировать ортологи, зная дополнительно их признаки.


©Володя Рудько