- Поиск белка по его последовательности.
i) На сервере NCBI — http://www.ncbi.nlm.nih.gov/BLAST/
— проведен поиск последовательности ASPG2_ECOLI программой BLASTP в банке swissprot (используемая
матрица замен а.о. – BLOSSUM62, штраф за открытие гэпа 11, за его продолжение 1). В выдаче программы найден искомый белок. Вот его
«характеристики»:
Порядковый номер в выдаче |
1 |
Score |
655 bits (1690) |
E-value |
0.0 |
ii) Повторен поиск с той же входной последовательностью, но в качестве банка указан pdb.
Первая в списке находка - gi|29726729|pdb|1NNS|B
(т.е. цепь B L-аспарагиназы E. Coli (димер) в разрешении 1.95 A).Для нее указано следующее:
Идентификатор PDB-кода |
1NNS |
Идентификаторы цепей |
B (указана единственная цепь) |
Score |
615 bits (1586) |
E-value |
4e-177 ( 4*10-177) |
Начало и конец выравнивания во входной последовательности (Query) |
23-348 |
Начало и конец выравнивания в находке (Subject) |
1-326 |
Процент совпадений (Identity) |
326/326 (100%) |
Комментарии к увиденному:
- в случае (i) вес выравнивания входной последовательности с остальными «находками» меньше 655 бит, что объяснимо максимальной сходностью (а вернее полной идентичностью, в отличие от остальных) «находки» 1 (ASPG2_ECOLI);
- в случае (ii): полученное значение E-value минимально, а вес максимален (по сравнению с другими находками), что
свидетельствует о наибольшем сходстве первой «находки» и белка ASPG2_ECOLI. Однако, значение веса (615 бит) меньше
полученного значения в пункте (i) (655 бит). Кроме того, не совпадают номера начала и конца выравнивания во входной
последовательности/находке. При том процент совпадений составляет 100%. Причиной этому (см. страницу
Белок ASPG2_ECOLI в банках Swiss-Prot и TrEMBL, графа «Какие особенности последовательности указаны?») является
следующая особенность: в ASPG2_ECOLI начало цепи (с 1ой по 22ую) представляет собой сигнальную последовательность, в
«находке» этого участка нет, с чем и связаны несовпадения номеров а.о., меньший вес и др.
- Поиск белка по его гомологу.
Проведен поиск в банке swissprot программой BLASTP по входящей последовательности из файла Q8ZGB7_YERPE.fasta.
В выдаче оказался «мой белок» (ASPG2_ECOLI). Характеристики:
Порядковый номер |
1 |
Score |
471 bits (1212) |
E-value |
1e-132 (10-132) |
Начало и конец выравнивания во входной последовательности (Query) |
1-345 |
Начало и конец выравнивания в находке (Subject) |
1-348 |
Процент совпадений (Identity) |
73% |
Первая находка не является белком Q8ZGB7_YERPE (т.е. тем, чья последовательность была подана на вход). Как сделать
белок, поданный на вход, первым из списка? Для этого нужно поменять тип банка с swissprot на nr.
Объяснить это можно различиями баз данных nr и swissprot: первый включает в себя пересмотренный
GenBank CDS+ PDB+SwissProt+PIR+PRF, а второй – SwissProt – последнее обновление; т.о., возможно отсутствие белка
Q8ZGB7_YERPE в SwissProt, поэтому он не первый (точнее, в SwissProt-овском варианте его вовсе нет).
А белок с pdb-кодом 1NNS (см. пункт 1 данной работы) в базе данных nr оказывается 18м.
Информация о банках данных, используемых BLASTP на сервере NCBI -
http://www.ncbi.nlm.nih.gov/blast/blast_databases.shtml.
- Поиск белка по фрагментам его последовательности.
Проведен поиск в банке swissprot программой BLASTP (матрица BLOSSUM62, штраф за открытие гэпа 11, за его продолжение 1)
по входящей последовательности из файла thirdprot.fasta:
- находок – 1шт. – это ASPG2_ECOLI. Вот характеристики:
Порядковый номер |
1 |
Score |
37,7bits |
E-value |
0,008 |
Начало и конец выравнивания во входной последовательности (Query) |
1-24 |
Начало и конец выравнивания в находке (Subject) |
1-48 |
Процент совпадений (Identity) |
50% |
- Следующий вариант поиска – банк nr, матрица BLOSSUM62, штраф за открытие гэпа 11, за его продолжение 1. Количество
находок – 10 шт. В самом списке находок ASPG2_ECOLI не значится, однако «упоминается» в подпункте с выравниванием
gi|89109734|ref|AP_003514.1| periplasmic L-asparaginase II [Escherichia coli W3110] (где выравнивание).
Причем практически все характеристики этого выравнивания идентичны указанным выше.
- Наконец, еще вариант - поиск в банке swissprot программой BLASTP (матрица PAM30 – думаю, что ее использование вполне уместно, т.к.
она применяется, если ведется поиск точного короткого совпадения; штраф за открытие гэпа 9, за его продолжение 1). Количество находок – 3 шт. (да, выбор матрицы оправдан:
тa же БД, а находок – втрое больше :-)). Белок ASPG2_ECOLI в списке есть:
Порядковый номер |
1 |
Score |
62,6bits |
E-value |
10-10 |
Начало и конец выравнивания во входной последовательности (Query) |
1-24 |
Начало и конец выравнивания в находке (Subject) |
1-48 |
Процент совпадений (Identity) |
50% |
В общем, «глобальный» вывод такой: при поиске белков по каким-либо критериям (по фрагментам его последовательности,
по его полной последовательности, по его гомологу) нужно внимательно выбирать параметры поиска для получения оптимальных
результатов в соответствие с поставленной задачей.
- Разные пользовательские интерфейсы BLAST.
Повторяю задание 1 (поиск по входной последовательности белка ASPG2_ECOLI), пользуясь программой BLASTP на
сервере EBI и на
сервере Пастеровского института.
Результаты получены «сходящиеся».
Мои впечатления:
- Начну, пожалуй, с сервера EBI (понятия «лучше/хуже» применяются в сравнении с NCBI): в общем, этот
интерфейс кажется мне (как простому «обывателю») наиболее логичным. Во всяком случае, от поиска остаются наилучшие
впечатления. Приятно радует отличная система навигации, большое количество гиперссылок (особо ценных – поясняющих, что
значит все, что запрашивается; все расписано…). Все параметры поиска, которые можно изменять, представлены очень компактно
(опять же, максимальная концентрация внимания…). Новшество состоит в том, что запрашивается e-mail (и можно выбрать,
как просматривать результаты поиска). По ряду параметров – отличающийся диапазон значений (например, вариантов штрафа
за открытие/продолжение гэпа меньше, а больше, например, пунктов в «База данных»). База данных предлагается в
зависимости от типа последовательности. Какой минус: для поиска требуется последовательность (может я чего не углядела,
но есть графа "Enter or Paste a Protein Sequence in any format"), в то время как в NCBI искать можно было по АС,
например. Зато – огромный плюс – вместо последовательности можно указать на файл, содержащий данную последовательности.
Oдновременно можно просматривать выравнивания и «находки», т.к. находится все это в разных окнах. Можно вернуться к исходным
параметрам после просмотра результатов, исправить неверное (submit another job), а потом нормально работать. В NCBI
при возврате назад данные дли поиска (АС или последовательность) не сохранялись, что все усложняло. И вообще, остается
ощущение равноценного диалога – многое, очень многое служит для удобства пользователя. Чего только стоит трогательные
объяснение, зачем нужен BLAST, расшифровка аббревиатуры и информация для пользователя («Что сейчас происходит…») при
выполнении поиска.
- Теперь впечатления от сервера Пастеровского института (уже в сравнении с NCBI, EBI): некрасиво.
Удобство: среднее (хотя есть все объяснения…). Е-mail запрашивается. Вариантов просмотра результатов 3. Можно посмотреть
в он-лайн режиме тут же на сайте, можно получить либо ссылку, либо документ по электронной почте; по умолчанию стоит
вариант прислать на ссылку e-mail.
Базы данных для разных типов последовательностей разобщены. Из плюсов: удобно выбирать одну из программ BLAST (в зависимости от цели).
Минусы: одновременно нельзя просматривать выравнивания и «находки», т.к. представленно все это в одном окнах. Кроме того,
для поиска запрашивается последовательность, но ее нельзя задать файлом. Фиксированные значения штрафов за открытие/продолжение гэпа
– поменять их не удается. Не удается изменить «вручную» и матрицу замен. Еще о неудобствах: кнопка «Начать поиск»
находится в самом начале документа (т.е. уже после выбора параметров нужно снова подняться в начало документа…).
- Является ли BLAST инструментом для поиска ортологов?
Через SRS в БД Swiss-Prot найдена последовательность репрессора рибозного оперона RbsR из Bacillus subtilis
(AC P36944). Для этого в соответствующих графах Gen Name, Organism Name было внесено RbsR и Bacillus subtilis.
С помощью программы BLASTP (интерфейс EBI) проведен поиск по банку данных Swiss-Prot для найденного белка -
здесь.
В первом приближении считаю ортологами те последовательности, в названии которых стоит слово RbsR. В числе первых 20
находок это: RBSR_BACSU, RBSR_BACHD, RBSR_LACLA , RBSR_PASMU, RBSR_SHIFL, RBSR_ECOLI (всего 6). Оставшиеся 14
находок, ортологами не яляются (исходя, хотя бы, из первого приближения); их последовательности сходны с
последовательностью, поданной на вход, они близки по функциям.
Что точно можно об этом сказать: в приведенный список входят гомологи (для этих целей BLAST является отличным
инструментом); это могут быть как ортологи, так и паралоги. Значит использоваться BLAST для поиска ортологов может, но
со значительными оговорками и дополнительными условиями (в рассматриваемом примере таким условием стало наличие RbsR в
названии).