Учебная страница Голикова Виктора
ФББ| Kodomo| Wikipedia| Pubmed| Uniprot| Blast| Alignment tools| E-mail me
На главную
Первый семестр
Второй семестр
1.UniProt 2.SRS 3.PubMed 4.Пробные выравнивания. 5.Парные выравнивания аминокислотных последовательностей. 6.BLASTP 7.Биологический смысл выравнивания. 8. Множественное выравнивание. 9.Мотивы, паттерны и профили. 10.PSI_BLAST.

Rambler's Top100

Второй семестр


Информация о моем белке (зачетное задание №1).


Банк последовательностей белков UniProt

  1. Данные о моём белке (Uniprot):
  2.   Метка поля Содержание
    Код(ы) доступа ("Accession number")  AC  P77791; Q2MBW8
    Идентификатор записи в БД  ID  MAA_ECOLI
    Название (краткое описание) белка  DE  RecName: Full=Maltose O-acetyltransferase; EC=2.3.1.79
    AltName: Full=Maltose transacetylase
    Дата создания документа  DT  01-NOV-1997
    Дата последнего исправления аннотации  DT  16-DEC-2008
    Число публикаций, использованных при создании документа  RN  6
    Журнал и год самой поздней публикации  RL  Mol. Syst. Biol. 2:E1-E5(2006).
    Ключевые слова  KW  3D-structure; Complete proteome; Direct protein sequencing; Repeat; Transferase.
    Что содержит поле комментариев?  CC Функция: ацетилирует мальтозу и другие сахара.
    Каталитическая активность: ацетил-CoA + мальтоза = CoA + ацетил-мальтоза
    Биофизические свойства:
    кинетические параметры:
    (Константа Михаэлиса) KM=62 mM для глюкозы;
    KM=90 mM для мальтозы;
    Vmax=0.20 ммоль/мин/мг фермент с глюкозой в основании;
    Vmax=0.11 ммоль/мин/мг фермент с мальтозой в основании;
    Примечания: ацителирует глюкозу, мальтозу, маннозу, галактозу с уменьшающейся относительной нормой: 1, 0.55, 0.20, 0.07, 0.04;
    Структура: гомодимер;
    Сходство: Принадлежит к семье гексапептидных трансфераз.
    Идентификаторы записей PDB  DR 1OCX

     

  3. Вопросы:

  4. 1) Последовательности большинства белков начинаются с метионина. Почему?
    После биосинтеза в процессе созревания белка метионин может быть удален. Указан ли метионин в начальной позиции заданного белка?
    А удаляется ли он потом?
    2) Как называется субстрат, с которым фермент работает быстрее всего? .

    Ответы:

    1) Так как с него начинается трансляции всех мРНК, и , соответственно, синтез белков. (бактериальные белки начинаются с N-формилметионина, потому что их старт кодоны соответсвуют тРНК, несущей его)
    Да, метеонин стоит на первом месте в последовательности аминокислот моего белка. В http://www.uniprot.org/uniprot/P77791 указано, что Initiator methionine Removed, но в последовательности он присутствует, значит метеонин отщепляется уже после трансляции.
    2)Белок ацетилируюет глюкозу, мальтозу, маннозу, галактозу и фруктозу, но быстрей всего из них - глюкозу.

  5. Поиск в Uniprot белков, схожих с моим:
  6.  Запрос  Число записей
    в SwissProt
    Число записей
    в TrEMBL
     "Maltose O-acetyltransferase" 2 262
     "EC=2.3.1.79" 2 194
     "Maltose O-acetyltransferase (EC=2.3.1.79)" 2 192
     "Maltose transacetylase" 2 40

  7. Рассмотрим один из белков, которые по данным Uniprot близки моему:
  8.   Метка поля P77791 P37515
    Первый код доступа  AC  P77791  P37515
    Идентификатор последовательности в БД  ID  MAA_ECOLI  MAA_BACSU
    Название (краткое описание) белка   DE  RecName: Full=Maltose O-acetyltransferase; EC=2.3.1.79  RecName: Full=Probable maltose O-acetyltransferase; EC=2.3.1.79
    Дата создания документа  DT  01-NOV-1997  01-OCT-1994
    Дата последнего исправления аннотации  DT  16-DEC-2008  20-JAN-2009
    Название организма  OS  Escherichia coli (strain K12)  Bacillus subtilis
    Классификация организма (список таксонов)  OC   Bacteria › Proteobacteria › Gammaproteobacteria › Enterobacteriales › Enterobacteriaceae › Escherichia.   Bacteria › Firmicutes › Bacillales › Bacillaceae › Bacillus.
    Длина последовательности  SQ  183  184
    Молекулярная масса белка  SQ  20,096  20,210
    Число публикаций, использованных при создании документа  RN  6  3
    Журнал и год самой поздней публикации  RL  Mol. Syst. Biol. 2:E1-E5(2006)  Nature 390:249-256(1997)
    Описание вторичной структуры  FT  Да, большая часть структуры состоит из альфа-спиралей и бета-тяжей, 1 небольшой участок с бета-поворотом.  Нет.
    Ключевые слова  KW  3D-structure; Complete proteome; Direct protein sequencing; Repeat; Transferase.  Complete proteome; Repeat; Transferase.
    Темы, освещённые в комментариях  CC   Каталитическая активность, биофизические свойства, функции, структура, сходство.  Каталитическая активность, сходство.
    Особенности последовательности
     FT  Может отсутствовать 1-ая аминокислота - инициатор метеонина.  Вероятная мальтозо - ацетил-трансфераза..
    Идентификаторы записей PDB  DR 1K3P; 1NXE; 1NXG; 1OWB; 1OWC  1431

     ВЫВОД: Белок P77791 лучше исследован, известна его вторичная структура, точные функции и т.д., несмотря на то что первая публикация о белке P37515 появилась на 3 года раньше. Белки сходны по строению, так что, на основании исследований E.coli можно делать выводы о функционировании белка Bacillus subtilis.
     

 

.

Наверх

Поисковая система SRS

Белки гамма-протеобактерий, выполняющие функцию, сходную с функцией моего белка P77791 (запросы в SRS):

Формулировка функции белка Строка запроса Количество найденных документов
 
Transferase (трансферазы)
 
([swissprot-Taxonomy:Gammaproteobacteria*] & [swissprot-Description:Transferase*])
 
1 850
 
Acetyltransferase (ацетил-трансферазы)
 
([swissprot-Taxonomy:Gammaproteobacteria*] & [swissprot-Description:acetyltransferase*])
 
169
 
То же самое что и первый запрос, но поиск трансфераз по AllText а не по Discription
 
([swissprot-Taxonomy:Gammaproteobacteria*] & [swissprot-AllText:Transferase*])
 
18 632
 
Поиск по ключевым словам
 
((([swissprot-Taxonomy:Gammaproteobacteria*] & (([swissprot-Keywords:Complete*] & [swissprot-Keywords:proteome*]) | [swissprot-Keywords:Complete proteome*])) & ((([swissprot-Keywords:Direct*] & [swissprot-Keywords:protein*]) & [swissprot-Keywords:sequencin*]) | [swissprot-Keywords:Direct protein sequencin*])) & [swissprot-Keywords:Transferase*])
 
185

Последовательности аминокислот, найденных по запросу: ([swissprot-Taxonomy:Gammaproteobacteria*] & [swissprot-Description:acetyltransferase] в fasta-формате.



Наверх

Работа с системой PubMed

По результатам запроса в поисковой системе PubMed, найдено 7 упоминаний полного названия моего белка (Maltose O-acetyltransferase) в литературе.
Ни одна статья не посвящена данному белку конкретно.

Из найденных статей я выбрал: "The single transmembrane domains of ErbB receptors self-associate in cell membranes",
ее автор, Mendrola JM, за последние 3 года издал всего 1 статью.

Разговорное название"shingles" (опоясывающий лишай) PubMed распознаёт как "Herpes zoster".


Наверх

Пути эволюции аминокислотных последовательностей. Пробное выравнивание.

1. Определение положения фрагмента в полной последовательности.

Данный фрагмент соответствует позициям 16 - 36 в полной последовательности моего белка P77791_Ecoli.

2. Построение "наилучшего" выравнивания вручную.

Исходные длины 2-х заданных фрагментов: 21
Длина выравнивания: 22
(совпадающих: 13)
Вес выравнивания: W = M – nG = 13 - 2*2=9
Процент идентичности двух выровненных последовательностей: % = 13 / 22*100 = 59.09

3. Матрица весов замен а.о. BLOSUM62.

На 4-ой позиции выравнивания, мы наблюдаем первую близкородственную замену аминокислотных остатков.
Глутаминовая кислота (E) заменена на глутамин (Q) во второй последовательности.
Вес данной замены, согласно использованной матрице BLOSUM = 2. Вес замены также можно посмотреть под обеими аминокислотами в прикрепленном изображении выравнивания.
Аминокислоты близкородственны, т.к. их они отличаются только (OH)-группой глутаминовой кислоты, вместо которой у глутамина находится (NH2)-группа.



Наверх

Парные выравнивания аминокислотных последовательностей

1. Работа в командной строке Linux.

Результаты выполнения команд.

2. Построение и сравнение оптимальных глобального и локального выравниваний 2х последовательностей с помощью программ needle и water пакета EMBOSS.

Белок для сравнения: P39856/CAPG_STAAU

Глобальное выравнивание обеспечивает наиболее оптимальное выравнивание последовательностей,
а локальное учитывает участки со сходными функциями, иногда за счет большего количества гэпов.
Со штрафами, умноженными на 2, уменьшается количество гэпов, но увеличивается их размер. С уменьшенными - наоборот.
Локальные выравнивания с разными параметрами идентичны друг другу, глобальные - совпадают для большинства фрагментов цепи.

Локальное выравнивание со стандартными параметрами.
Локальное выравнивание с удвоенными штрафами.
Локальное выравнивание с уменьшенными штрафами.
Глобальное выравнивание со стандартными параметрами.
Глобальное выравнивание с удвоенными штрафами.
Глобальное выравнивание с уменьшенными штрафами.


>Сравнение полученных результатов:

  • есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных глобальных выравниваниях сопоставлены разные позиции второй последовательности?
    Да. В глобальном выравнивании в n-ой области есть 2 близко расположенных гэпа, при увеличении штрафов в 2 раза данные гэпы заменяются на один, это приводит к смещению позиций. Пример:

    Стандартные штрафы:
    maa_ecoli  92 -CPIRIGDNCMLAPGVHIYTATH------------PIDPVARNSGAELGK 128
    capg_staau 43 PYLIQIGNHVTITSGVKF--ATHDGGVWIFRKKYPEIDNFHR-------- 82
    Удвоенные:
    maa_ecoli 101 MLAPGVHIYTATHPIDPVARNSGAELGKP----------VTIGNNVWIGG 140
    capg_staau 44 YLIQIGNHVTITSGVKFATHDGGVWIFRKKYPEIDNFHRIFIGNNVFIGI 93


  • есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных локальных выравниваниях сопоставлены разные позиции второй последовательности?
    Да. Причем таких позиций достаточно много. Причины те же, что и в глобальных выравниваниях. Пример:

    Стандартные штрафы:
    maa_ecoli  76 LGNNFFANFDCVMLDV---------CPIRIGDNCMLAPGVHIYTATH--- 113
    capg_staau 25 VGN------DCRFLSVDRSTFGSEPYLIQIGNHVTITSGVKF--ATHDGG 66


    Уменьшенные вдвое:
    maa_ecoli  92 CPIRIGDNCMLAPGVHIYTATHP-IDPVARNSGAELGKPVTIGNNVWIGG 140
    capg_staau 65 -----G-------GVWIFRKKYPEIDNFHR---------IFIGNNVFIGI 93


  • есть ли хотя бы один пример того, что в одном глобальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?
    Да. Это происходит при слиянии/разделении гэпов. Пример показан в вопросе №1.

  • есть ли хотя бы один пример того, что в одном локальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?
    Да. Тот же самый случай. Пример приведен в вопросе №2.

  • соответствуют ли оптимальные локальные выравнивания, построенные с использованием разных параметров, одним и тем же фрагментам последовательностей?
    Нет, фрагменты сильно не соответствуют друг другу:
    Стандартные штрафы: 76 - 183 аминокислоты моего белка и 25 - 136 аминокислоты capg_staau.
    Удвоенные: 130 - 183 и 83 - 136 соответственно (взят участок первого выравнивания, причем на данном участке различий нет).
    Уменьшенные: 6 - 183 и 2 - 136 (уменьшение штрафов позволяет сильно увеличить участок на котором проводится выравнивание).



    Наверх

    Таблица 1. Результаты поиска гипотетических гомологов белка MAA_ECOLI

    BLASTP

      Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
    1. Лучшая находка (в принципе должна соответствовать заданному белку)
    Идентификатор БД  MAA_ECOLI (соответствует моему белку)  1OCX (соответствует моему белку)  NP_414992(соответствует моему белку)
    E-value  3e-105  2e-105  4e-104
    Вес (в битах)  379  377  379
    % идентичности  100  100  100
    Найдены ли другие белки с теми же значениями E-value и веса в битах?  нет  нет  да, один: ref|YP_001742603.1| (вес=379, E-value=8e-104)
    2. Сколько хороших кандидатов в гомологи найдено?  15  5  100
    2. "Худшая" находка (последняя в выдаче с E-value < 1)
    Номер находки в списке описаний (Descriptions)  102  29  102
    Идентификатор БД  SAT4_ARATH  3FWW  ZP_04097469
    E-value  0.001  0,74  3e-64
    Вес (в битах)  42.7  29,3  247
    % идентичности  38  31  63
    % сходства  60  60  77
    Длина выравнивания  60  41  182
    Координаты выравнивания (номера первых и последних а.о.) (query - заданный; sbjct - сравниваемый)  122,180;249,308  132,172;397,437  1,180;16,192
    % гэпов  1  0  1

  • ответьте, удалось ли найти изучаемый белок в Swiss-Prot и "nr", а его структуру в PDB?

  • да, удалось везде.

  • сравните параметры выравнивания изучаемого белка с самим собой при поиске по разным БД и объясните различия (если они есть, конечно);

  • параметры выравнивания белка с самим собой в разных базах данных отличаются небольшой разницей в E-value и весе выравнивания.

  • сравните число потенциальных гомологов при поиске по разным БД и поясните причину различий;

  • больше всего гомологов найдено в базе nr, т.к. она самая крупная, в swissprot меньше гомологов зато больше информации по каждому из них, в pdb меньше всего гомологов (т.к. там должна быть исследована третичная структура!)

  • сравните "худшие" находки при поиске по разным БД: совпадают ли они? если нет, то почему? какая из "худших" самая хорошая?

  • не совпадает. "самая хорошая" находка - в базе nr.

  • Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
  • Homo sapiens (taxid:9606)
    Идентификатор БД  EDEM2_HUMAN  2R8U  NP_001138497|
    Номер находки в списке описаний (Descriptions)  1  1  1
    E-value  1.1  0.38  4.1
    Вес (в битах)  29.6  28.1  30.0
    % идентичности  28  21  28
    % сходства  42  39  42
    Длина выравнивания  115  119  126
    Координаты выравнивания (номера первых и последних а.о.) (query - заданный; sbjct - сравниваемый)  13,119;380,484  34,144;62,180  13,119;343,447
    % гэпов  17  9  17

    Вывод: Мой белок имеет очень слабую гомологию с соответствующими белками человека, на что указывает очень высокое E-value (до 4.1!). Причиной этого является сильная удаленность таксонов. Судя по названиям, белки организма человека также являются трансферазами, т.е. выполняют сходную функцию.

  • Поиск белка по его фрагменту (SEDQQLLLERKHARQLIRQYN)
  • Результаты поиска белка в Swiss-Prot по фрагменту последовательности

      Поиск по фрагменту Поиск по полной
    последовательности
    АС лучшей находки  MAA_BACSU  MAA_BACSU
    E-value  3e-13  3e-105
    Вес (в битах)  71.9  380
    Найдены ли другие белки с теми же значениями E-value и веса в битах?
     нет, у остальных - вес гораздо меньше, а E-value больше  нет, тот же результат

    Вывод: белок проще найти по полной последовательности или по идентификатору, т.к. при запросе по фрагменту, вероятно придется выбирать среди нескольких белков, имеющих сходный фрагмент. E-value и вес также выдаются для указанного фрагмента.

  • Сравним выравнивания этих белков, полученные с использованием различных алгоритмов: MAA_BACSU - MAA_ECOLI
  • BLAST:
    
    MAA_BACSU  2    LRTEKEKMAAGELYNSEDQQLLLERKHARQLIRQYNET-PEDDAVRTKLLKELLGSVGDQ  60      
    MAA_ECOLI  1    MSTEKEKMIAGELYRSADETLSRDRLRARQLIHRYNHSLAEEHTLRQQILADLFGQV-TE  59
    
    MAA_BACSU  61   VTILPTFRCDYGYHIHIGDHTFVNFDCVILDVCEVRIGCHCLIAPGVHIYTAGHPLDPIE  120
    MAA_ECOLI  60   AYIEPTFRCDYGYNIFLGNNFFANFDCVMLDVCPIRIGDNCMLAPGVHIYTATHPIDPVA  119
    
    MAA_BACSU  121  RKSGKEFGKPVTIGDQVWIGGRAVINPGVTIGDNAVIASGSVVTKDVPANTVVGGNPARI  180
    MAA_ECOLI  120  RNSGAELGKPVTIGNNVWIGGRAVINPGVTIGDNVVVASGAVVTKDVPDNVVVGGNPARI  179
    
    MAA_BACSU  181  LKQL  184
    MAA_ECOLI  180  IKKL  183
    
    
    NEEDLE:
    
    MAA_BACSU  1 MLRTEKEKMAAGELYNSEDQQLLLERKHARQLIRQYNET-PEDDAVRTKL     49   
    MAA_ECOLI  1  MSTEKEKMIAGELYRSADETLSRDRLRARQLIHRYNHSLAEEHTLRQQI     49
    
    MAA_BACSU  50 LKELLGSVGDQVTILPTFRCDYGYHIHIGDHTFVNFDCVILDVCEVRIGC     99
    MAA_ECOLI  50 LADLFGQV-TEAYIEPTFRCDYGYNIFLGNNFFANFDCVMLDVCPIRIGD     98
    
    MAA_BACSU  100 HCLIAPGVHIYTAGHPLDPIERKSGKEFGKPVTIGDQVWIGGRAVINPGV    149
    MAA_ECOLI  99 NCMLAPGVHIYTATHPIDPVARNSGAELGKPVTIGNNVWIGGRAVINPGV    148
    
    MAA_BACSU  150 TIGDNAVIASGSVVTKDVPANTVVGGNPARILKQL    184
    MAA_ECOLI  149 TIGDNVVVASGAVVTKDVPDNVVVGGNPARIIKKL    183
    
    
    
    WATER:
    
    MAA_BACSU  2    LRTEKEKMAAGELYNSEDQQLLLERKHARQLIRQYNET-PEDDAVRTKLLKELLGSVGDQ  60      
    MAA_ECOLI  1    MSTEKEKMIAGELYRSADETLSRDRLRARQLIHRYNHSLAEEHTLRQQILADLFGQV-TE  59
    
    MAA_BACSU  61   VTILPTFRCDYGYHIHIGDHTFVNFDCVILDVCEVRIGCHCLIAPGVHIYTAGHPLDPIE  120
    MAA_ECOLI  60   AYIEPTFRCDYGYNIFLGNNFFANFDCVMLDVCPIRIGDNCMLAPGVHIYTATHPIDPVA  119
    
    MAA_BACSU  121  RKSGKEFGKPVTIGDQVWIGGRAVINPGVTIGDNAVIASGSVVTKDVPANTVVGGNPARI  180
    MAA_ECOLI  120  RNSGAELGKPVTIGNNVWIGGRAVINPGVTIGDNVVVASGAVVTKDVPDNVVVGGNPARI  179
    
    MAA_BACSU  181  LKQL  184
    MAA_ECOLI  180  IKKL  183
    
    

    Мы видим, что выравнивания полностью совпадают! И т.к. 3 выравнивания, основанные на математических методах, показывают одно и то же, то, скорее всего, это и являяется наиболее справедливым выравниванием данных двух белков.


    Наверх

    Биологический смысл выравнивания последовательностей белков

    Мною было построено выравнивание аминокислотных последовательностей с условными номерами 9 и 10 на основании пространственного наложения их структур:
    (последовательность №9 раскрашена в красный цвет, №10 - соответственно в зеленый)















































    Скачать выравнивание в формате msf.


    Далее мною было произведено оптимальное выравнивание с помощью программы needle:



















    Скачать выравнивание в формате msf.


    Вывод: программа needle произвела оптимальное выравнивание, высчитывая математическими методами наибольший вес выравнивания; при выравнивании вручную я пользовался биологическими методами: сравнением пространственных структур и расположения консервативных остатков. В итоге, глобальное выравнивание выдало математически правильный, но биологически неточный результат. Несмотря на это, в обоих выравниваниях много совпадающих участков.


    Наверх

    Множественное выравнивание

    Ознакомление с программой Muscle:
    Для множественного выравнивания возьмем вирусные белки - "дельта-антигены".(Посмотреть последовательности в fasta-формате).
    Данные белки были найдены мной по запросу в SRS: ([swissprot-Description:delta*] & [swissprot-Taxonomy:deltavirus*]).

    Вот выравнивание, проделанное программой muscle (fasta - формат).

    А вот оно же, импортированное в GeneDoc:



    Тут можно скачать это выравнивание в формате msf.

    Вывод: В файлах с выравниванием программой muscle белки даны в иной последовательности, чем были расположены в исходном файле. Во всех белках присутствует очень много сходных консервативных аминокислот (что является следствием их принадлежности к одному классу). Ну и, разумеется выравнивание в формате msf гораздо нагляднее и удобнее для анализа, чем в fasta - формате.

    Далее, проделаю то же самое выравнивание, но вручную:



    Тут можно скачать это выравнивание в формате msf.


    Выравнивания очень похоже! Основное различие - в порядке аминокислотных последовательностей.


    Выравнивание набора гомологов белка MAA_ECOLI:
    (для выравнивания были отобраны 5 гомологов принадлежащих таксону Bacteria, с E-value<0.001, с процентами идентичности от 30 до 80, и наиболее удаленные друг от друга в заданных рамках.)
    Выравнивание в fasta-формате
    Выравнивание в формате msf




    Участок с повышенной долей консервативных позиций:
    Координаты по остаткам моего белка (MAA_ECOLI):132-178; по столбцам выравнивания:154-200.

    Участок с небольшой долей консервативных позиций:
    Координаты по остаткам моего белка:81-102; по столбцам выравнивания:85-106.
    .
    Участки, где выравнивание скорее всего не имеет биологического смысла:
    1. Координаты по остаткам моего белка:1-80; по столбцам выравнивания:1-84.
    2. Координаты по остаткам моего белка:103-131; по столбцам выравнивания:107-153.
    3. Координаты по остаткам моего белка:179-183; по столбцам выравнивания:201-251.



    Наверх

    Мотивы, паттерны и профили

    Рассмотрим наш фрагмент множественного выравнивания.
    Создаём 3 паттерна.

    1. Первый паттерн в точности является фрагментом последовательности моего белка (то есть только одной из последовательностей выравнивания).
    2. Второй ("сильный") паттерн надо постараться построить так, чтобы он распознавал все белки моей выборки, и только их.
    3. Третий ("слабый") паттерн надо создать на основе второго, сделав требования к последовательности более мягкими.

    Проведу поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие каждому из полученных паттернов.

    Таблица результатов поиска по паттернам в базе данных SwissProt:

    Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
    Фрагмент последовательности RYLFPDRDDV в 1 Нет
    Сильный [RKAND]-[YNH]-[LFVAT]-[FY]-[PAVM] -[DN]-[RFS]-[DN]-X(0,4)-D-[VDG] в 7 Все
    Слабый [FY]-[PAVM]-{A}-[RFS]-[DN]-X(0,4)-D-[VDG] в 1003 Все

    Первый паттерн - это фрагмент последовательности моего белка MAA_ECOLI, а те последовательности, которые имеют гэпы или не совпадают, нам не подходят. Второй, более сильный паттерн, одновременно и более мягкий, он нашел все последовательности. Самый мягкий паттерн (слабый) выявил большое количество последовательностей белков, не только из семейств моего белка, но и из других таксонов. Из всего этого можно сделать вывод - самый оптимальный паттерн - сильный, так как он находит нужное нам число последовательностей белка, и по возможности не находит лишние белки.

    Все описанные в PROSITE мотивы в заданном белке MAA_ECOLI

    Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
    PS00101 HEXAPEP_TRANSFERASES Сайт повторяющихся гексапептидов, содержащих трансферазы паттерн [LIV] - [GAED] - x(2) - [STAV] - x - [LIV] - x(3) - [LIVAC] - x - [LIV] - [GAED] - x(2) - [STAVR] - x - [LIV] - [GAED] - x(2) - [STAV] - x - [LIV] - x(3) - [LIV] специфична 1
    PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования казеинкиназы С паттерн [ST] - x - [RK] неспецифична 3
    PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеинкиназы II паттерн [ST] - x(2) - [DE] неспецифична 5
    PS00008 MYRISTYL Сайт N-миристоилирования паттерн G - {EDRKHPFYW} - x(2) - [STAGCN] - {P} неспецифична 4
    PS00001 ASN_GLYCOSYLATION Сайт N-гликолизации паттерн N - {P} - [ST] - {P} неспецифична 1

    Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определённом расстоянии друг от друга в последовательности. Специфичный мотив всего один, характерный для данного белка, а неспецифичных гораздо больше, но с короткими паттернами, вследствие того что такие мотивы могут принадлежать белкам из разных таксонов.


    Наверх

    PSI-BLAST

    Задание 1

    Проведём работу с четырьмя аминокислотными последовательностями. Первые три последовательности имеют в Swiss-Prot номера доступа P18196, P0A832, P0A780; четвёртая – последовательность моего белка (MAA_ECOLI).

    Для этих последовательностей проводим итеративный поиск по банку Swiss-Prot программой PSI-BLAST. При поиске всем параметрам (кроме банка поиска и программы) оставляем значения по умолчанию. Выполняем до пяти итераций, пока появляются новые последовательности выше порога 0,005 на E-value; если же и после пятой итерации список не стабилизировался, можно на этом остановиться.

    ID белка AC белка Число итераций Для первой итерации Для последней итерации
    Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
    MINC_ECOLI P18196 5 124 0.004 0.005 239 0.003 0.007
    SSRP_ECOLI P0A832 2 449 3е-10 5.0 449 8е-31 0.62
    NUSB_ECOLI P0A780 4 327 0.003 0.008 388 2е-12 0.031
    MAA_ECOLI P77791 5 144 0,004 0,005 1303 0,003 0,005


    Выводы:

    MINC_ECOLI "разошелся", т.к. даже после 5-й итерации список не стабилизировался, т.е. продолжали появляться новые находки, размывающие результат.
    SSRP_ECOLI и NUSB_ECOLI "сошлись": в первом случае вторая итерация выдала нам столько же находок, сколько и первая, и новых находок не появилось, поэтому мы можем сразу утверждать, что белок "сходится". Во втором случае новые находки перестали появляться после 4-ой итерации.
    Мой белок также "разошелся", т.к и после 5-ой итерации BLAST продолжал находить новые белки.

    В случае с последовательностями, которые "сошлись", E-value худшей находки выше порога резко уменьшался с каждой последующей итерацией, E-value лучшей находки ниже порога независимо от итераций мог увеличиваться или уменьшаться. Разрыв между лучшей и худшей находкой увеличивался с каждым разом.

    У разошедшихся последовательностей, E-value в обоих случаях менялся незначительно, и, при увеличении числа находок, разрыв между лучшей и худшей находками также менялся очень незначительно. Это может говорить о "расхождении" списка гомологов.

    Задание 2

    "Не сошлись" интерации для белка MINC_ECOLI. Проведём опять поиск, изменив порог с 0.005 на 0.001.С таким параметром порога третья итерация "сошлась", вследствие того, что белок, размывающий результат, и , вероятно, негомологичный заданной последовательности, на этот раз не попал в список. Если увеличить порог до 0.002, то он опять попадет в список. Таким образом, снижение порога E-value можно использовать для улучшения результата поиска при "расхождении" белка.


    Наверх