Создание паттерна по выравниванию семейства белков
1.
Был проведен поиск мотивов Prosite (паттернов и профилей), представленных в рибосомальном белке B.subtilis RL2_BACSU.
Нашелся один паттерн - PS00467 (RIBOSOMAL_L2).
Паттерн PS00467: P-x(2)-R-G-[STAIV](2)-x-N-[APK]-x-[DE] .
Описание белкового семейства, выделяемого паттерном PS00467: Рибосомальный белок L2 - один из белков большой
субъединицы рибосомы. Известно, что белок L2 Escherichia coli связывается с 23S рибосомальной РНК,
обладает пептидилтрансферазной активностью. В данное семейство белков, на основании сходства последовательностей, включают белки:
L2 эубактерий, L2 хлоропластов водорослей и растений, Cyanelle L2, L2 архебактерий, L2 растений, Slime mold L2, L2 митохондрий
Marchantia polymorpha и Paramecium tetraurelia, Fission yeast K5, K37 and KD4, YL6 дрожжей, L8 позвоночных.
Паттерн описывает консервативный C-концевой участок.
Актуальные (в августе 2011) характеристики паттерна PS00467:
число последовательностей семейства, которые не находятся паттерном в банке Swiss-Prot - 99 ,
число лишних последовательностей, которые находятся паттерном в банке Swiss-Prot - 7 ,
"Precision" (точность) - 99.27 % ,
"Recall" (чувствительность) - 90.54 % .
2.
Создание паттерна, распознающего белки семейства, описанного в упражнении 1, принадлежащие отделу Firmicutes.
- При помощи ScanProsite tool были найдены SwissProt ID белков а.) распознающихся паттерном PS00467 и принадлежщих отделу Firmicutes (отобранно 10 белков); б)
распознающихся паттерном PS00467 и принадлежщих отделам Actinobacteria, Bacteroidetes, Chlamydiae, Cyanobacteria, Proteobacteria, Spirochaetes (отобранно 10 белков).
- Вручную был создан лист-файл proteins.list со строчками, указывающими на отобранные белки. Командой seqret @proteins.list proteins.fasta
был создан файл с последовательностями отобранных белков в формате fasta.
- Последовательности отобранных белков были выровнены командой muscle -in proteins.fasta -out proteins_aligned.fasta.
- Полученное выравнивание было импортированно в GeneDoc и раскрашено:
символы аминокислот, описываемых исходным паттерном - красные;
позиции, консервативные для всех белков - на черном фоне;
позиции, консервативные для белков отдела Firmicutes и названия белков отдела Firmicutes - на зеленом фоне;
позиции, консервативные для белков контрольной группы и названия белков контрольной группы - на синем фоне.
Выравнивание: shaded_alignment.msf
- Для создания паттерна был выбран фрагмент выравнивания:
Паттерн: H-x(4)-[VLI]-G-K-A-G-R-x-R-x(4)-R-P-x(2)-R-G-S-[AV]-M-N-P-x-D-H-P-H-G(3)-E-G-[RK]-x-P-[IV]-G
- Созданный паттерн был запущен на белках всех бактерий из Swiss-Prot. Исходный паттерн был запущен на белках Firmicutes. Для сравнения результатов был написан
скрипт. Результат работы созданного паттерна: results.txt - слишком много false negatives
(ненайденных белков Firmicutes)!
- Для улучшения паттерна к выравниванию было добавленно 3 из 59-и ошибочно ненайденных белков:
У RL2_STRA5, RL2_STRPF, RL2_STRTD первая аминокислота, попадающая под паттерн - глутами Q, а не гистидин H.
2-ой паттерн: [HQ]-x(4)-[VLI]-G-K-A-G-R-x-R-x(4)-R-P-x(2)-R-G-S-[AV]-M-N-P-x-D-H-P-H-G(3)-E-G-[RK]-x-P-[IV]-G
Результаты работы 2-ого паттерна: results_2.txt.
Характеристики 2-ого паттерна:
- Число верных находок ("True positive hits", TP) - 122
- Число ложных находок ("False positive hits", FP) - 10
- Число ненайденных белков подсемейства ("False negatives", FN) - 34
- Чувствительность TP/(TP+FN) - 0,7820512820512821
- Селективность TP/(TP+FP) - 0,9242424242424242
главная страница
©Настя Гуляева, 2009