Создание паттерна по выравниванию семейства белков
Занятие 10.
1.Нахождение в банке Prosite паттерна рибосомального белка бактерий RL13_BACSU
Найденный мотив в RL13_BACSU(106-128): IKGMLPkgsl.GRqmfkkLnVYrG
Локализация в последовательности:
MRTTPMANASTIERKWLVVDAAGKTLGRLSSEVAAILRGKHKPTYTPHVDTGDHVIIINAEKIELT
GKKLTDKIYYRHTQHPGGLKSRTALEMRTNYPEKMLELAIKGMLPKGSLGRQMFKKLNVYRGSEHP
HEAQKPEVYELRG
Найденный паттерн: [LIVM]-[KRVLYFS]-[GKR]-M-[LIV]-[PST]-x(4,5)-[GSKR]-[NQEKRAH]-x(5)-[LIVM]-x-[AIVL]-[LFYV]-x-[GDNS]
Рибосомальный белок L13 - это один белков большой субъединицы рибосомы. Известно, что в Escherichia coli является одним из белков, который участвует в начальной сборке 50S рибосомальной субъединицы. Он принадлежит семейству рибосомальных белков, включающих группы:
*Eubacterial L13
*Plant chloroplast L13 (nuclear-encoded)
*Red algal chloroplast L13
*Archaebacterial L13
*Mammalian L13a (Tum P198)
*Yeast Rp22 and Rp23
Устаревшие характеристики:
- Не находилось ни одной лишней на момент создания;
- Все найденные последовательности принадлежали этому классу белков с данным паттерном.
Новые характеристики (от матрв 2011):
Общее число находок в UniProtKB/Swiss-Prot: 500;
Число находок, принажлежащих этому семейсву белков: 498;
Колличество белков, которые возможно могли бы попасть в эту группу: 0;
Число неверных находок: 2;
Число потеренных находок: 211;
Колличество неполных последовательностей, которые подходят под описание, но не являются паттерном или профилем, потому что это фрагмент последовательности: 1;
Точность: 99.60%
Чувствительность: 70.24%
2.Cоздание паттерна для поиска белков подсемейства.
Возьмем 2 выборки белков: Первая - из таксона Bacillales; Вторая - из таксона Lactobacillales, с включением в этот же список ранга Proteobacteria;
Итак,
Красной рамочкой отмечены границы паттерна, голубым цветом выделен таксон Bacillales.
Изначально, по всей базе данных SwissProt находилось 500 белков (см. выше), в таксоне Bacillales находилось же 55 белков по начальному паттерну (было осуществлено с помощью комманд: fuzzpro -pattern "`cat 2.txt`", и далее: grep -c 'Sequence:' zur_bacsu.fuzzpro)
После построения выравнивания было решено усилить паттерн, но результат был не очень хорош, после нескольких таких процедур пришли к наилучшему из всех вариантов паттерну:
[IV]-[KR]-GMLP-[KS]-x-{PT}-LG-x-[KQ]-x(2)-KKL-{K}-VY-x-G
С помощью него находится всего 48 последовательностей, из которых все 48 принадлежат таксону Bacillales.
Однако потеряно 7 последовательностей.
Xарактеристики для моего паттерна:
Число верных находок ("True positive hits", TP): 48;
Число ложных находок ("False positive hits", FP): 0;
Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN): 7;