Мотивы в белках. PSSM и паттерны. PSI-BLAST. Банк Prosite.

Теоретическое введение:

Алгоритм PSI-BLAST (Position-Specific Iterated BLAST) предназначен для поиска удаленных гомологов белков. Для реализации этого алгоритма используется техника создания PSSM(Position-Specific Scoring Matrix) - матриц, в которых вес замены аминокислотного остатка зависит от его положения в выравнивании. Аминокислоты в строках соответствуют номерам позиций тех в выравнивании в столбцах. Значение в ячейке таблицы характеризует вес данной аминокислоты в данной позиции, и чем чаще та встречается в этом месте в гомологах последовательности, тем больше ее вес. Таким образом, в ячейках PSSM-матрицы стоят положительные или отрицательные целые числа. Положительные указывают, что аминокислота замещается чаще, чем можно ожидать в случайной модели. Отрицательные значения - наоборот.

PSSM можно использовать для поиска новых гомологов, реализуя итеративность алгоритма, которые подразумевает корректировку профиля после выполнения каждого нового шага в соответствии с новыми данными. Это реализует поиск, аналогичный поиску через матрицу BLOSUM в классическом алгоритме BLAST, где PSSM позволяет оценить вес выравниваний новых последовательностей с исследуемой, выявив лучшие находки. После обычного белок-белкового бласта программа на основе выдачи строит профиль PSSM на основе множественного выравнивания находок с E-value < 0.005 по дефолту, после чего новые последовательности с E-value < 0.005 добавляются в выравнивание, по которому строится новая PSSM, и так далее, пока поиск не "сойдётся" - список находок после последней итерации не изменится.

Практическая реализация:

PSI-BLAST

Для тестирования вышеописанного алгоритма был выбран белок O05886 - фактор гибернации рибосомы, кодируемый геном hpf в Mycobacterium tuberculosis (strain ATCC 25618 / H37Rv), известной более в рускоязычной литературе как палочка Коха, возбудитель туберкулёза.
Данный белок является необходимым фактором димеризации рибосомных субъединиц при иницации трансляции бактерии, активизируя 70S рибосомы собираться в комплекс 100S с 30S на первых этапах процесса синтеза белка.

Был проведён поиск PSI-BLAST по базе данных SwissProt, с пороговым значением E-value = 0.001. Ниже представлена таблица итераций поиска:
Таблица 1. Итерации поиска
Номер итерации Число находок выше порога 0,001 Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
№1 31 P28613.2 6e-04 P26983.1 0.001
№2 46 P71346.3 5e-11 P9WMA8.1 0.009
№3 51 P24694.1 2e-23 P9WMA8.1 0.002
№4 51 P24694.1 5e-24 P9WMA8.1 0.002
№5 53 P24694.1 4e-24 P9WMA8.1 0.001
№6 53 P24694.1 5e-24 P9WMA8.1 0.001
№7 53 P24694.1 4e-24 P9WMA8.1 0.001
и далее те же самые находки

Низкое значение надпорогового e-value говорит об относительной консервативности данной группы белков - гомологов среди различных организмов. Разница между E-value хороших и плохих находок составляет 21 порядков, что свидетельствует об очень хорошей. Большинство находок совпадает по функции с исходным белком. Отличия составляют только P9WMA8.1 - другой белок палочки Коха, вовлечённый в регуляцию трансляции, другой P71346 - YFIA_HAEIN, фактор ассоциациированный с рибосомой Y возбудителя пневмонии, который предотвращает димеризацию рибосомной субъединиц 70S, возможно, из-за этого имея гомологичны участок последовательности с исходным нашим белком.

PROSITE

Цель задания - уточнить паттерн одного из семейств белков так, чтобы он описывал не все белки данного семейства, а только белки протеобактерий. Описанное в прошлой работе семейство белков факторов высвобождения пептидной цепи RF1 на этот раз анализировалось на предмет наличия характерного паттерна семейства, описанного на портале prosite. Поиск вёлся через Quick Scan mode of ScanProsite по белку P57852 - RF1_PASMU. В результате поиска был найден один консенсусный паттерн:
[ARH]-[STA]-x-G-x-G-G-Q-[HNGCSY]-[VI]-N-x(3)-[ST]-[AKG]-[IV]
С оригинальной страницей выдачи можно ознакомиться здесь.
Ниже представлен данный паттерн, обнаруженный в выравнивании из прошлого практикума.

Рисунок 1 Обнаруженный паттерн

Паттерн этот был обнаружен не для всех белков в исходном выравнивании, два из них по тому не определяются как гомологи. Если основываться на предположении, что последние два белка - не гомологи, то более строгий паттерн для первых девяти последовательностей будет выглядtть как:
R-[SA]-x-G-A-G-G-Q-H-[VI]-N-x-T-[DE]-S-A-[IV]-R-[ILV]-T-H-[IL]-P-[TS]-G

Рисунок 2 Модифицированный паттерн

В базе данных далее были найдены все соответствия паттерну из банка Swiss-Prot: было найдено 419 совпадений по данному паттерну, когда как на сайте Uniprot через поиск по мнемоникее rf1_* - 408, то есть на 10 больше. С помощью средств Python было рассчитано количество истинных находок (True positives, TP), число ложных находок (False positives, FP), и число ненайденных находок (False negatives, FN) - TP нашли, как пересечение списков, FP - как оставшиеся в списке для модифицированного паттерна идентификаторы, FN - как оставшиеся в листе uniprot.

Таблица 2A. Итоги анализа находок
R-[SA]-x-G-A-G-G-Q-H-[VI]-N-x-T-[DE]-S-A-[IV]-R-[ILV]-T-H-[IL]-P-[TS]-G
FN94
FP105
TP314
TP/FN3.3
TP/SUM0.60
FP/SUM0.2
FN/SUM0.2

Как мы можем наблюдать по результатам выдачи, ненайденных белков не слишком много, те составляют меньше четверти находок, что позволяет нам считать отредактированный паттерн хорошим. Попытаемся изменить паттерн, чтобы достоверность модификации его повысилась. Сначала попробуем ограничить паттерн его прошлыми границами, убрав дополнительные колонки.

Таблица 2В. Итоги анализа находок
R-[SA]-x-G-A-G-G-Q-H-[VI]-N-x-T-[DE]-S-A-[IV]
FN60
FP207
TP348
TP/FN5.8
TP/SUM0.6
FP/SUM0.3
FN/SUM0.1

Соотношение верных находок к неверным немедленно возросло. Причём, судя по следующим тестам, все из которых я приводить ниже не буду, увеличение исходного паттерна вообще не помогает повысить число положительных находок, отсеивает большее количество не найденных, конечно, но пропорция между ними не сохраняется исходной и свидетельствует об уменьшении количества обнаруженных относительно не обнаруженных:

Таблица 2C. Итоги анализа находок
R-[SA]-x-G-A-G-G-Q-H-[VI]-N-x-T-[DE]-S-A-[IV]-R-[ILV]
FN62
FP198
TP346
TP/FN5.6
TP/SUM0.57
FP/SUM0.32
FN/SUM0.1

Теперь попытаемся в новых рамках паттерна что-нибудь изменить, чтобы понять, помогает ли нам его уточнение относительно первоначальных рамок. Новое задание букв более обширное, вместо общности [DE] далее была выбрана любая буква, например, а если. Продолжить в том же духе - интересно, что отдельна замена T в тринадцатой позиции не привела к улучшению результата, а замена A в пятой позиции на общую x уменьшила FN и увеличила TP значения, но и замена обоих частностей сделала то же самое. Ниже представлен финальный и самый лучший результат.

Таблица 2D. Итоги анализа находок
R-[SA]-x-G-A-G-G-Q-H-[VI]-N-x-T-x-S-A-[IV]
FN58
FP219
TP350
TP/FN6.0
TP/SUM0.55
FP/SUM0.35
FN/SUM0.1

Таблица 2E. Итоги анализа находок
R-[SA]-x-G-x-G-G-Q-H-[VI]-N-x-T-x-S-A-[IV]
R-[SA]-x-G-x-G-G-Q-H-[VI]-N-x(3)-S-A-[IV]
FN57
FP224
TP351
TP/FN6.15
TP/SUM0.555
FP/SUM0.355
FN/SUM0.09

Так как задача стояла выбрать наилучший паттерн для нашего случая, выбираем наиболее конкретный. Итого: - наилучший модифицированный паттерн.


Ссылки на ресурсы:


Вернуться назад

На главную страницу


©Solonovich Vera,2017