- Поиск белка по его последовательности.
   i) На сервере NCBI — http://www.ncbi.nlm.nih.gov/BLAST/ 
   — проведен поиск последовательности  ASPG2_ECOLI программой BLASTP в банке swissprot (используемая
   матрица замен а.о. – BLOSSUM62, штраф за открытие гэпа 11, за его продолжение 1). В выдаче программы найден искомый белок. Вот его 
   «характеристики»:
    
     
      | Порядковый номер в выдаче | 1 |  
      | Score | 655 bits (1690) |  
      | E-value | 0.0 |  
 ii) Повторен поиск с той же входной последовательностью, но в качестве банка указан pdb. 
    Первая в списке находка - gi|29726729|pdb|1NNS|B
   (т.е. цепь B L-аспарагиназы  E. Coli (димер) в разрешении 1.95 A).Для нее указано следующее:
    
     
      | Идентификатор PDB-кода | 1NNS |  
      | Идентификаторы цепей | B (указана единственная цепь) |  
      | Score | 615 bits (1586) |  
      | E-value | 4e-177 ( 4*10-177) |  
      | Начало и конец выравнивания во входной последовательности (Query) | 23-348 |  
      | Начало и конец выравнивания в находке (Subject) | 1-326 |  
      | Процент совпадений (Identity) | 326/326 (100%) |  
 Комментарии к увиденному:
    
    - в случае  (i) вес выравнивания входной последовательности с остальными «находками» меньше 655 бит, что объяснимо максимальной сходностью (а вернее полной идентичностью, в отличие от остальных) «находки» 1 (ASPG2_ECOLI);
    
- в случае  (ii): полученное значение E-value минимально, а вес максимален (по сравнению с другими находками), что
    свидетельствует о наибольшем сходстве первой «находки» и белка ASPG2_ECOLI. Однако, значение веса (615 бит) меньше 
    полученного значения в пункте (i) (655 бит). Кроме того, не совпадают номера начала и конца выравнивания во входной 
    последовательности/находке. При том процент совпадений составляет 100%. Причиной этому (см. страницу 
    Белок ASPG2_ECOLI в банках Swiss-Prot и TrEMBL, графа «Какие особенности последовательности указаны?») является 
    следующая особенность: в ASPG2_ECOLI начало цепи (с 1ой по 22ую) представляет собой сигнальную последовательность, в 
    «находке» этого участка нет, с чем и связаны несовпадения номеров а.о., меньший вес и др.
   
 
    
- Поиск белка по его гомологу.
   Проведен поиск в банке swissprot программой BLASTP по входящей последовательности из файла Q8ZGB7_YERPE.fasta. 
    В выдаче оказался «мой белок» (ASPG2_ECOLI). Характеристики:
    
     
      | Порядковый номер | 1 |  
      | Score | 471 bits (1212) |  
      | E-value | 1e-132  (10-132) |  
      | Начало и конец выравнивания во входной последовательности (Query) | 1-345 |  
      | Начало и конец выравнивания в находке (Subject) | 1-348 |  
      | Процент совпадений (Identity) | 73% |  
 Первая находка не является белком Q8ZGB7_YERPE (т.е. тем, чья последовательность была подана на вход). Как сделать 
   белок, поданный на вход, первым из списка? Для этого нужно поменять тип банка с swissprot на nr.
   Объяснить это можно различиями баз данных nr и swissprot: первый включает в себя пересмотренный 
   GenBank CDS+ PDB+SwissProt+PIR+PRF, а второй – SwissProt – последнее обновление; т.о., возможно отсутствие белка 
   Q8ZGB7_YERPE в SwissProt, поэтому он не первый (точнее, в SwissProt-овском варианте его вовсе нет).
    А белок с pdb-кодом 1NNS (см. пункт 1 данной работы)   в базе данных nr оказывается 18м.
    Информация о банках данных, используемых BLASTP на сервере NCBI - 
   http://www.ncbi.nlm.nih.gov/blast/blast_databases.shtml.
    
    
- Поиск белка по фрагментам его последовательности.
   Проведен поиск в банке swissprot программой BLASTP (матрица BLOSSUM62, штраф за открытие гэпа 11, за его продолжение 1)
   по входящей последовательности из файла thirdprot.fasta:
    
    
    - находок – 1шт. – это ASPG2_ECOLI. Вот характеристики: 
    
     
      | Порядковый номер | 1 |  
      | Score | 37,7bits |  
      | E-value | 0,008 |  
      | Начало и конец выравнивания во входной последовательности (Query) | 1-24 |  
      | Начало и конец выравнивания в находке (Subject) | 1-48 |  
      | Процент совпадений (Identity) | 50% |  
 
     
- Следующий вариант поиска – банк nr, матрица BLOSSUM62, штраф за открытие гэпа 11, за его продолжение 1. Количество
    находок – 10 шт. В самом списке находок ASPG2_ECOLI не значится, однако «упоминается» в подпункте с выравниванием
    gi|89109734|ref|AP_003514.1|  periplasmic L-asparaginase II [Escherichia coli W3110] (где выравнивание). 
    Причем практически все характеристики этого выравнивания идентичны указанным выше.
    
     
- Наконец, еще вариант - поиск в банке swissprot программой BLASTP (матрица PAM30 – думаю, что ее использование вполне уместно, т.к.
    она применяется, если ведется поиск точного короткого совпадения; штраф за открытие гэпа 9, за его продолжение 1). Количество находок – 3 шт. (да, выбор матрицы оправдан:
    тa же БД, а находок – втрое больше :-)). Белок ASPG2_ECOLI в списке есть:
    
     
      | Порядковый номер | 1 |  
      | Score | 62,6bits |  
      | E-value | 10-10 |  
      | Начало и конец выравнивания во входной последовательности (Query) | 1-24 |  
      | Начало и конец выравнивания в находке (Subject) | 1-48 |  
      | Процент совпадений (Identity) | 50% |  
 
 В общем, «глобальный» вывод такой: при поиске белков по каким-либо критериям (по фрагментам его последовательности,
   по его полной последовательности, по его гомологу) нужно внимательно выбирать параметры поиска для получения оптимальных
   результатов в соответствие с поставленной задачей.
    
    
- Разные пользовательские интерфейсы BLAST.
   Повторяю задание 1 (поиск по входной последовательности белка ASPG2_ECOLI), пользуясь программой BLASTP на 
    сервере EBI  и на  
   сервере Пастеровского института.
   Результаты получены «сходящиеся».
     Мои впечатления:
    
    - Начну, пожалуй, с сервера EBI (понятия «лучше/хуже» применяются в сравнении с NCBI): в общем, этот 
    интерфейс кажется мне (как простому «обывателю») наиболее логичным. Во всяком случае, от поиска остаются наилучшие 
    впечатления. Приятно радует отличная система навигации, большое количество гиперссылок (особо ценных – поясняющих, что
    значит все, что запрашивается; все расписано…). Все параметры поиска, которые можно изменять, представлены очень компактно
    (опять же, максимальная концентрация внимания…). Новшество состоит в том, что запрашивается e-mail (и можно выбрать,
    как просматривать результаты поиска). По ряду параметров –  отличающийся диапазон значений (например, вариантов штрафа 
    за открытие/продолжение гэпа меньше, а больше, например, пунктов в «База данных»). База данных предлагается в 
    зависимости от типа последовательности. Какой минус: для поиска требуется последовательность (может я чего не углядела,
    но есть графа "Enter or Paste a Protein Sequence in any format"), в то время как в NCBI искать можно было по АС,
    например. Зато – огромный плюс – вместо последовательности можно указать на файл, содержащий данную последовательности.
    Oдновременно можно просматривать выравнивания и «находки», т.к. находится все это в разных окнах. Можно вернуться к исходным
    параметрам после просмотра результатов, исправить неверное (submit another job), а потом нормально работать. В  NCBI
    при возврате назад данные дли поиска (АС или последовательность) не сохранялись, что все усложняло. И вообще, остается 
    ощущение равноценного диалога – многое, очень многое служит для удобства пользователя. Чего только стоит трогательные
    объяснение, зачем нужен BLAST, расшифровка аббревиатуры и информация для пользователя («Что сейчас происходит…») при 
    выполнении поиска.
    
- Теперь впечатления от сервера Пастеровского института (уже в сравнении с NCBI, EBI): некрасиво.
    Удобство: среднее (хотя есть все объяснения…). Е-mail  запрашивается. Вариантов просмотра результатов 3. Можно посмотреть
    в он-лайн режиме тут же на сайте, можно получить либо ссылку, либо документ по электронной почте; по умолчанию стоит
    вариант прислать на  ссылку  e-mail.
    Базы данных для разных типов последовательностей разобщены.  Из плюсов: удобно выбирать одну из программ BLAST (в зависимости от цели).
    Минусы: одновременно нельзя просматривать выравнивания и «находки», т.к. представленно все это в одном окнах. Кроме того,
    для поиска запрашивается последовательность, но ее нельзя задать файлом. Фиксированные значения штрафов за открытие/продолжение гэпа 
    – поменять их не удается. Не удается изменить «вручную» и матрицу замен. Еще о неудобствах: кнопка «Начать поиск» 
    находится в самом начале документа (т.е. уже после выбора параметров нужно снова подняться в начало документа…).
   
 
    
- Является ли BLAST инструментом для поиска ортологов?
   Через  SRS в БД Swiss-Prot найдена  последовательность репрессора рибозного оперона RbsR из Bacillus subtilis 
   (AC P36944). Для этого в соответствующих графах  Gen Name, Organism Name было внесено RbsR и Bacillus subtilis. 
   С помощью программы BLASTP (интерфейс EBI) проведен поиск по банку данных Swiss-Prot для найденного белка - 
   здесь.
    В первом приближении считаю ортологами те последовательности, в названии которых стоит слово RbsR. В числе первых 20
   находок это: RBSR_BACSU, RBSR_BACHD, RBSR_LACLA , RBSR_PASMU, RBSR_SHIFL, RBSR_ECOLI (всего 6). Оставшиеся 14 
   находок, ортологами не яляются (исходя, хотя бы, из первого приближения);  их последовательности сходны с 
   последовательностью, поданной на вход, они близки по функциям.
   Что точно можно об этом сказать: в приведенный список входят гомологи (для этих целей BLAST является отличным
   инструментом); это могут быть как ортологи, так и паралоги. Значит использоваться BLAST  для поиска ортологов может, но 
   со значительными оговорками и дополнительными условиями (в рассматриваемом примере таким условием стало наличие  RbsR в 
   названии).