Главная cтраничка сайта

Первый семестр

Второй семестр

Третий семестр

Четвертый семестр

Создание паттерна по выравниванию семейства белков



Занятие 10.


1.Нахождение в банке Prosite паттерна рибосомального белка бактерий RL13_BACSU

Найденный мотив в RL13_BACSU(106-128): IKGMLPkgsl.GRqmfkkLnVYrG
Локализация в последовательности:
MRTTPMANASTIERKWLVVDAAGKTLGRLSSEVAAILRGKHKPTYTPHVDTGDHVIIINAEKIELT
GKKLTDKIYYRHTQHPGGLKSRTALEMRTNYPEKMLELAIKGMLPKGSLGRQMFKKLNVYRGSEHP
HEAQKPEVYELRG
Найденный паттерн: [LIVM]-[KRVLYFS]-[GKR]-M-[LIV]-[PST]-x(4,5)-[GSKR]-[NQEKRAH]-x(5)-[LIVM]-x-[AIVL]-[LFYV]-x-[GDNS]
Рибосомальный белок L13 - это один белков большой субъединицы рибосомы. Известно, что в Escherichia coli является одним из белков, который участвует в начальной сборке 50S рибосомальной субъединицы. Он принадлежит семейству рибосомальных белков, включающих группы:
*Eubacterial L13
*Plant chloroplast L13 (nuclear-encoded)
*Red algal chloroplast L13
*Archaebacterial L13
*Mammalian L13a (Tum P198)
*Yeast Rp22 and Rp23

Устаревшие характеристики:
- Не находилось ни одной лишней на момент создания;
- Все найденные последовательности принадлежали этому классу белков с данным паттерном.

Новые характеристики (от матрв 2011):
Общее число находок в UniProtKB/Swiss-Prot: 500;
Число находок, принажлежащих этому семейсву белков: 498;
Колличество белков, которые возможно могли бы попасть в эту группу: 0;
Число неверных находок: 2;
Число потеренных находок: 211;
Колличество неполных последовательностей, которые подходят под описание, но не являются паттерном или профилем, потому что это фрагмент последовательности: 1;
Точность: 99.60%
Чувствительность: 70.24%

2.Cоздание паттерна для поиска белков подсемейства.

Возьмем 2 выборки белков:
Первая - из таксона Bacillales;
Вторая - из таксона Lactobacillales, с включением в этот же список ранга Proteobacteria;
Итак,
BacillalesLactobacillales и Proteobacteria
BACAN, BACSU, GEOKA, LISMO, STAA1, STAES LACAC, PEDPA, LACDA, ACTSZ, ECOHS, SHESR


Получили выравнивание:

Красной рамочкой отмечены границы паттерна, голубым цветом выделен таксон Bacillales.
Изначально, по всей базе данных SwissProt находилось 500 белков (см. выше), в таксоне Bacillales находилось же 55 белков по начальному паттерну (было осуществлено с помощью комманд: fuzzpro -pattern "`cat 2.txt`", и далее: grep -c 'Sequence:' zur_bacsu.fuzzpro)
После построения выравнивания было решено усилить паттерн, но результат был не очень хорош, после нескольких таких процедур пришли к наилучшему из всех вариантов паттерну:
[IV]-[KR]-GMLP-[KS]-x-{PT}-LG-x-[KQ]-x(2)-KKL-{K}-VY-x-G
С помощью него находится всего 48 последовательностей, из которых все 48 принадлежат таксону Bacillales.
Однако потеряно 7 последовательностей.
Xарактеристики для моего паттерна:
  • Число верных находок ("True positive hits", TP): 48;
  • Число ложных находок ("False positive hits", FP): 0;
  • Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN): 7;
  • Чувствительность TP/(TP+FN): 87,27%;
  • Селективность TP/(TP+FP): 100%.

  • Google

    Kodomo


    © Сергеева Ирина 2009-2011