На главную


Мотивы в белках

1. PSI-BLAST

Для выполнения данного задания был выбран белок B2V8C0.1 экстремофильной бактерии Sulfurihydrogenibium sp. (strain YO3AOP1). Возможной функцией этого белка является определение местоположения септы (MinC). Этот белок ингибирует образование Z - кольца дестабилизируя FtsZ филаменты, полимеризация которых необходима для созревания кольца. MinC и другие белки этого семейства расположены на полюсах клетки, поэтому Z-кольцо созревает только посередине клетки (рис. 1).
Рисунок 1. Схема образования Z-кольца при делении бактериальной клетки [1]

Затем был проведен поиск сервисом PSI-BLAST (Position-Specific Iterated BLAST) в базе Swiss-Prot. Список итераций приведен в таблице 1. Результат удалось стабилизировать уже после второй итерации. Как видно из таблицы, количество находок и идентификаторы лучшей и худшей находок совпадают.
Таблица 1. Список итераций
Номер итерации  Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 163 Q88M41.2 0,004 Q4US07.1 0,006
2 188 Q9ZM51.1 6,00E-07 A7H8E6.1 0,036
3 188 Q9ZM51.1 2,00E-11 A7H8E6.1 0,025
В последней итерации E-value худшей находки ниже порогового значения 0.005 и лучшей находки выше порогового значения различаются на 9 порядков, что позволяет сделать вывод о том, что найденное семейство довольно достоверное и "хорошее". Таблицу находок последней итерации можно найти по ссылке. Репрезентативное дерево находок, построенное методом минимальной эволюции представлено на рисунке 2.
Рисунок 2. Дерево находок

2. Мотивы и паттерны

Для поиска паттернов в семействе белков TIG я нашла мотив белка P0A850 (TIG_ECOLI) в банке Prosite [2]. Для этого белка нашелся 1 паттерн длиной 89 нуклеотидов, местоположение 161 - 249, последовательность:
EDRVTIDFTGSVD-GEEFEGGKASD--FVLAMGQGRMIPGFEDGIKGHKAGEEFTIDVTF
PEEYHAENLKgkaAKFAINLKKVEERELPELT.

Этот паттерн предположительно является FKBP пептидил-пролил цис/транс изомеразным доменом (PPIase).
Затем этот паттерн был найден в выравнивании белков (ссылка на выравнивание получено программой muscle) и отредактирован.
Рисунок 3. Паттерн на выравнивании
Максимально возможная длина паттерна = 200 символов, поэтому были опробованы вариации паттернов.

1)[EGD]-[DKT]-[RQ]-[VILA]-[TVI]-[IMV]-[DN]-[FY]-x-G[KTS]-[VI]-[DNE]-[GD]-[EV]-[EA]-F-[EAD]-GG-x-[AD]-x-[DN]-F-V-L-[AEV]-[MIL]-G-[QS]-[GN]-[RTS]-[MF]-I-P-G-F-E-[DEAT]-[QAG]-I-[KVTL]-G-[HML]-[KG]-A-[GD]

2)[EGD]-[DKT]-[RQ]-[VILA]-[TVI]-[IMV]-[DN]-[FY]-x-G[KTS]-[VI]-[DNE]-[GD]-[EV]-[EA]-F-[EAD]-GG-x-[AD]-x-[DN]-F-V-L-[AEV]-[MIL]-G-[QS]-[GN]-[RTS]-[MF]-I-P-G-F-E

3)[EGD]-[DKT]-[RQ]-[VILA]-[TVI]-[IMV]-[DN]-[FY]-x-G[KTS]-[VI]-[DNE]-[GD]-[EV]-[EA]-F-[EAD]-GG-x-[AD]-x-[DN]-F-V-L-x(2)-G-[QS]-[GN]-[RTS]-[MF]-I-P-G-F-E-x(2)

4)G-[KTS]-[VI]-[DNE]-[GD]-[EV]-[EA]-F-[EAD]-G-G-x-[AD]-x-[DN]-F-V-L

Для каждого паттерна было посчитано число истинных находок (True positives, TP), то есть размер пересечения списков, число ложных находок (False positives, FP), то есть число тех белков, которые нашлись паттерном, но не входят в правильный список, и число ненайденных (False negatives, FN). В качестве рефересного списка использовались идентификаторы аннотированных белков семейства Proteobacteria (TIG_*). Результаты представлены в таблице 2, ссылка на excel файл с находками. Как видно из таблицы все находки являются истинными, ложных не найдено, однако довольно много ненайденных находок, причем с уменьшением длины паттерна их длина уменьшается. Можно сделать вывод, что данный паттерн чувствительный, но не специфичный.
Таблица 2. Результаты поиска
TP FP FN
паттерн 1 34 0 381
паттерн 2 52 0 363
паттерн 3 57 0 358
паттерн 4 67 0 358

3. Psiblast командная строка


1) Input query options
-query - Просит ввести имя входного файла * Incompatible with: in_msa, msa_master_idx, ignore_msa_master, in_pssm
-query_loc - Можно указать расположение координаты поискового запроса в указанном файле
2) Общие настройки поиска
-db Просит ввести название базы данных, в которой необходимо провести поиск
-out - Имя выходного файла
-evalue Максимальное значение evalue для того, чтобы сохранить находку в выдачу, по умолчанию = 10.
-word_size =2, размер слова для поискового алгоритма
-gapopen Величина штрафа за открытие гэпа
-gapextend Величина штрафа за продолжение гэпа
-matrix матрица весов (по умолчанию BLOSUM62)
-threshold =0> Минимальное значение score при котором находка будет добавлена в выдачу
-outfmt - формат выдачи, самый популярный -7, табулированная таблица с шапкой.
-num_alignments =0> Число находок, для которых необходимо показать выравнивание (по умолчанию =250)
Кроме того с помощью флага -html можно получить выдачу в html формате
-num_iteration задает количество итераций
-phi_pattern - имя входного файла, содержащего паттерн для поиска
3) Построение матрицы PSSM
-in_msa Имя файла, содержащего множественное выравнивание для рестарта PSI-BLAST
-msa_master_idx =1> номер последовательности, считающейся главной в множественном выравнивании (по умолчанию 1)
-ignore_msa_master Игнорирование главной последовательности для создания PSSM
-in_pssm PSI-BLAST checkpoint file
-pseudocount Значение псевдокаунтера для построения PSSM
Команда для запуска: psiblast -query 1.fasta -db swissprot -remote -evalue 0.005 -pseudocount 1
Выдает ошибку "Critical: Secure socket layer (GNUTLS) has not been properly initialized in the NCBI toolkit. Have you forgotten to call SOCK_SetupSSL()?"

4. Источники


[1] Shih Y.-L., Zheng M. Spatial control of the cell division site by the Min system in Escherichia coli // Environ. Microbiol. 2013. Т. 15. № 12. С. 3229–3239.
[2] https://prosite.expasy.org/cgi-bin/prosite/ScanView.cgi?scanfile=9555154161605.scan.gz