Мотивы в белках. PSSM и паттерны. PSI-BLAST. Банк Prosite


1. PSI-BLAST

Для данной последовательности белка неоьходимо было составить семейство гомологов, пользуясь PSI-BLAST. Я выбрала идентификатор Q7VDL2. Это septum site-determining protein MinC - белок, который ингибирует клеточное деление бактерий путём блокировки формирования Z-кольца полярной перегородки. Принадлежит морской цианобактерии Prochlorococcus marinus. С помощью белкового BLAST в NCBI (PSI-BLAST и поиск по банку Swiss-Prot), осуществлялся поиск выбранного белка. Результаты каждой иттерации вносились в таблицу ниже.

Табл.1 Результат поиска в BLASTP
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 145 Q7N522.1 0,003 B2VJ44.1 0,008
2 188 B6JKX0.1 7e-08 A7H8E6.1 0.062
3 188 Q9ZM51.1 2e-12 A7H8E6.1 0.013
4 189 A8MHK8.1 0.001 A7H8E6.1 0.012


Выяснилось, что несмотря на то, во второй и третьей иттерациях число находок было одинаковым, четвёртая иттерация позволила сделать еще одну находку, после чего результат стабилизироввался. В каждой последующей иттерации программа выдавала уведомление: "No new sequences were found above the 0.005 threshold". Все находки blast оносятся к белку MinC, их довольно много, и они относятся к различным таксонам бактерий, что говорит о том, что изучаемый белок достаточно консервативен (по крайней мере не специфичен).

2. Prosite

Цель задания: уточнить паттерн одного из семейств белков так, чтобы он описывал не все белки данного семейства, а только белки протеобактерий. Для этого использовалось выравнивание енолаз протеобактерий из 2 практикума: ENO_align.fasta.
В первую очередь банке Prosite (prosite.expasy.org) был найден паттерн (нашёлся всего один), описывающий выбранное семейство белков. Название семейства: Enolase (EC 4.2.1.11) Паттерн:[LIVTMS]-[LIVP]-[LIV]-[KQ]-x-[ND]-Q-[INV]-[GA]-[ST]-[LIVM]-[STL]-[DERKAQG]-[STA]. Далее, с помощью выравнивания, был сделан более строгий паттерн: N-S-I-L-[VI]-K-[VFI]-N-Q-I-G-[ST]-L-T-E-T, на рисунке ниже жёлтой рамкой выделен окончательный паттерн.


Рис.1 Строгий паттерн енолазы на основе выравнивания.

Далее были найдены все соответствия полученному паттерну в банке Swiss-Prot. Всего на выходе получилось 384 находки, которые были сохранены в файл в формате matchlist: hits.

Для сравнения списка находок с "правильным" списком, то есть со списком всех представителей данного семейства белков из Proteobacteria, имеющихся в Swiss-Prot, я получила "правильный" список с помощью сайта Uniprot: Entry Name [ID] - ENO_*, Taxonomy [OC] - Proteobacteria. Выдача uniprot (396 находок): right_hits . С помощью Excel я сравнила списки белков, найденных построенным паттерном, и белков протеобактерий из семейства. Результаты сравнения приведены в таблице ниже.

Табл. 1: TP: True positives - число истинных находок (то есть размер пересечения списков), FP: False positives - число ложных находок (число тех белков, которые нашлись паттерном, но не входят в правильный список), FN: False negatives - число ненайденных
TP FP FN
218 166 164
Назад