Практикум 6. PSI-BLAST
1. PSI-BLAST
Случайный идентификатор
Для данной последовательности белка составьте семейство гомологов, пользуясь PSI-BLAST
Ribosome-associated inhibitor A
Identical Prorein Group
113 amino acids.
Организм: Escherichia coli (strain K12)
Функция: связывание малой субъединицы рибосомы
Описание функций более подробно:
Во время стационарной фазы предотвращается образование димеров 70S, вероятно, для регулирования эффективности трансляции
при переходе между экспоненциальной и стационарной фазами (PubMed: 16324148 ).
☆ Во время воздействия окружающей среды,
такого как холод или чрезмерная плотность клеток на стационарной фазе, стабилизирует рибосому 70S против диссоциации,
ингибирует продолжение трансляции и повышает точность (PubMed: 11375931 , PubMed: 15219834 ).
☆ Когда нормальные условия
восстанавливаются, он быстро высвобождается из рибосомы (PubMed: 11375931 ).
☆ При 15 градусах Цельсия связывает 30S-субъединицы и
стимулирует их связь с 50S-субъединицами в холостые 70S рибосомы (PubMed: 23420694 ).
☆ Кристаллизация с рибосомами T.thermophilus 70S показывает,
что он связывается в канале между головкой и телом 30S-субъединицы, где связываются мРНК, тРНК, факторы инициации IF1 и IF3 и фактор удлинения G;
удлиненный хвост этого белка следует каналу мРНК и, вероятно, предотвращает связывание с RMF, что предотвращает димеризацию рибосом (PubMed: 22605777).
☆ Этот белок также стабилизирует головку 30S относительно остальной части рибосомы, что также может препятствовать димеризации (PubMed: 22605777 ).
☆ Особенно эффективно противодействует неправильному кодированию (ошибки трансляции) при концентрациях магния, близких к наблюдаемым in vivo,
но менее эффективно при более высоких концентрациях (PubMed: 15219834 ).
Таблица результатов PSI-BLAST
Номер итерации |
Число находок выше порога (0,005) |
Идентификатор худшей находки выше порога |
E-value этой находки |
Идентификатор лучшей находки ниже порога |
E-value этой находки |
1 | 29 | Q49VV1.1 | 8e-04 | P19954.2 | 0.022 |
2 | 44 | O05886.4 | 3e-09 | Q82IY7.1 | 0.092 |
3 | 44 | O05886.4 | 2e-24 | Q82IY7.1 | 0.080 |
4 | 39 | P24694.1 | 1e-24 | Q82IY7.1 | 0.17 |
5 | 41 | P24694.1 | 3e-24 | O58050.1 | 0.19 |
6 | 42 | P24694.1 | 2e-24 | Q9LIM6.1 | 0.48 |
Как видно из таблицы "ступенька" E-value между худшими "правильными" находками и "лучшими" неправильными довольно большая. Таким образом
можно предположить, что находки составляют семейство гомологичных белков..
2. Prosite
Цель задания: уточнить паттерн одного из семейств белков так, чтобы он описывал не все белки данного семейства, а только белки протеобактерий.
1
Енолаза - ENO_ECOLI
Паттерн:[LIVTMS]-[LIVP]-[LIV]-[KQ]-x-[ND]-Q-[INV]-[GA]-[ST]-[LIVM]-[STL]-[DERKAQG]-[STA]
Ссылка на описание паттерна:
https://prosite.expasy.org/cgi-bin/prosite/nicedoc.pl?PS00164
Описание
Енолаза (EC 4.2.1.11) - гликолитический фермент, который катализирует дегидратацию 2-фосфо-D-глицерата в фосфоенолпируват.
Это димерный фермент, которому требуется магний как для катализа, так и для стабилизации димера. Енолаза найдена фактически во всех живых организмах,
метаболизирующих сахар. У позвоночных существует 3 различных тканеспецифичных изозима: альфа представлен в большинстве тканей,
бета - в мышцах и гамма, который был найден только в нервной ткани.
2
Вводим здесь нижеперечисленное http://www.uniprot.org/uploadlists/ и получаем нужные последовательности
ENO_ECOLI
ENO_SALTY
ENO_BRADU
ENO_NEIMA
ENO_VIBFM
ENO_PASMU
ENO_RHIEC
После выравниваем и ищем паттерн
3
Сделаем паттерн более строгим:
[IL]-L-[IV]-K-[FV]-NQIG-[ST]-L-[ST]-ETL
4
Теперь ищем все соответствия паттерну в банке Swiss-Prot:
☆ https://prosite.expasy.org/
☆ Option 2
☆ Внизу страницы (где "STEP 3") выберите Output format: Matchlist (просто список находок).
В итоге было найдено 326 последовательностей.
5
Теперь нужно сравнить список находок с "правильным" списком,
то есть со списком всех представителей данного семейства белков из Proteobacteria, имеющихся в Swiss-Prot.
☆ http://www.uniprot.org/
☆ Search => Advanced
☆ Entry Name [ID] => ENO_*
☆ Taxonomy [OC] => Proteobacteria.
В итоге нашлось 396 последовательностей.
6
Средствами Python сравниваем два списка: белков, найденных паттерном, и белков протеобактерий из семейства.
Результат:
Число истинных находок (True positives, TP), то есть размер пересечения списков | 227 |
Число ложных находок (False positives, FP), то есть число тех белков, которые нашлись паттерном, но не входят в правильный список |
99 |
Число ненайденных (False negatives, FN) | 169 |
|