Практикум 6. PSI-BLAST

1. PSI-BLAST

Случайный идентификатор

P0AD49

Для данной последовательности белка составьте семейство гомологов, пользуясь PSI-BLAST

Ribosome-associated inhibitor A
Identical Prorein Group
113 amino acids.
Организм: Escherichia coli (strain K12)
Функция: связывание малой субъединицы рибосомы

Описание функций более подробно:

Во время стационарной фазы предотвращается образование димеров 70S, вероятно, для регулирования эффективности трансляции при переходе между экспоненциальной и стационарной фазами (PubMed: 16324148 ).
☆ Во время воздействия окружающей среды, такого как холод или чрезмерная плотность клеток на стационарной фазе, стабилизирует рибосому 70S против диссоциации, ингибирует продолжение трансляции и повышает точность (PubMed: 11375931 , PubMed: 15219834 ).
☆ Когда нормальные условия восстанавливаются, он быстро высвобождается из рибосомы (PubMed: 11375931 ).
☆ При 15 градусах Цельсия связывает 30S-субъединицы и стимулирует их связь с 50S-субъединицами в холостые 70S рибосомы (PubMed: 23420694 ).
☆ Кристаллизация с рибосомами T.thermophilus 70S показывает, что он связывается в канале между головкой и телом 30S-субъединицы, где связываются мРНК, тРНК, факторы инициации IF1 и IF3 и фактор удлинения G; удлиненный хвост этого белка следует каналу мРНК и, вероятно, предотвращает связывание с RMF, что предотвращает димеризацию рибосом (PubMed: 22605777).
☆ Этот белок также стабилизирует головку 30S относительно остальной части рибосомы, что также может препятствовать димеризации (PubMed: 22605777 ).
☆ Особенно эффективно противодействует неправильному кодированию (ошибки трансляции) при концентрациях магния, близких к наблюдаемым in vivo, но менее эффективно при более высоких концентрациях (PubMed: 15219834 ).

Таблица результатов PSI-BLAST

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 29 Q49VV1.1 8e-04 P19954.2 0.022
2 44 O05886.4 3e-09 Q82IY7.1 0.092
3 44 O05886.4 2e-24 Q82IY7.1 0.080
4 39 P24694.1 1e-24 Q82IY7.1 0.17
5 41 P24694.1 3e-24 O58050.1 0.19
6 42 P24694.1 2e-24 Q9LIM6.1 0.48

Как видно из таблицы "ступенька" E-value между худшими "правильными" находками и "лучшими" неправильными довольно большая. Таким образом можно предположить, что находки составляют семейство гомологичных белков..

2. Prosite

Цель задания: уточнить паттерн одного из семейств белков так, чтобы он описывал не все белки данного семейства, а только белки протеобактерий.

1

Енолаза - ENO_ECOLI

Паттерн:[LIVTMS]-[LIVP]-[LIV]-[KQ]-x-[ND]-Q-[INV]-[GA]-[ST]-[LIVM]-[STL]-[DERKAQG]-[STA]
Ссылка на описание паттерна: https://prosite.expasy.org/cgi-bin/prosite/nicedoc.pl?PS00164

Описание

Енолаза (EC 4.2.1.11) - гликолитический фермент, который катализирует дегидратацию 2-фосфо-D-глицерата в фосфоенолпируват.
Это димерный фермент, которому требуется магний как для катализа, так и для стабилизации димера. Енолаза найдена фактически во всех живых организмах, метаболизирующих сахар. У позвоночных существует 3 различных тканеспецифичных изозима: альфа представлен в большинстве тканей, бета - в мышцах и гамма, который был найден только в нервной ткани.

2

Вводим здесь нижеперечисленное http://www.uniprot.org/uploadlists/ и получаем нужные последовательности
ENO_ECOLI
ENO_SALTY
ENO_BRADU
ENO_NEIMA
ENO_VIBFM
ENO_PASMU
ENO_RHIEC

После выравниваем и ищем паттерн

3

Сделаем паттерн более строгим:

[IL]-L-[IV]-K-[FV]-NQIG-[ST]-L-[ST]-ETL

4

Теперь ищем все соответствия паттерну в банке Swiss-Prot:
☆ https://prosite.expasy.org/
☆ Option 2
☆ Внизу страницы (где "STEP 3") выберите Output format: Matchlist (просто список находок).

В итоге было найдено 326 последовательностей.

5

Теперь нужно сравнить список находок с "правильным" списком, то есть со списком всех представителей данного семейства белков из Proteobacteria, имеющихся в Swiss-Prot.
☆ http://www.uniprot.org/
☆ Search => Advanced
☆ Entry Name [ID] => ENO_*
☆ Taxonomy [OC] => Proteobacteria.

В итоге нашлось 396 последовательностей.

6

Средствами Python сравниваем два списка: белков, найденных паттерном, и белков протеобактерий из семейства.

Результат:

Число истинных находок (True positives, TP), то есть размер пересечения списков 227
Число ложных находок (False positives, FP), то есть число тех белков, которые нашлись паттерном, но не входят в правильный список 99
Число ненайденных (False negatives, FN) 169


© Cherkashina Anastasia 2018