Задание 1. Поиск в банке Prosite паттерн одного из рибосомальных белков бактерий
.
Мне достался рибосомальный белок RL1_BACSU
Нашелся только один паттерн - PS01199 RIBOSOMAL_L1 Ribosomal protein L1 signature : [IMGV]-x(2)-[LIVA]-x(2,3)-[LIVMY]-[GAS]-x(2)-[LMSF]-[GSNH]-[PTKR]-[KRAVG]-[GN]-x-[LIMF]-P-[DENSTKQPRAGVI]
Описание:
Рибосомальный белок L1 это самый большой белок, входящий в состав большой субъединицы рибосомы. В E.Coli этот белок связывается с 23S rRNA. Он принадлежит к семейству
рибосомных белков.
Eubacterial L1.
Algal and plant chloroplast L1.
Cyanelle L1.
Archaebacterial L1.
Vertebrate L10A.
Yeast SSM1.
Число удачных хитов (последовательностей)
862
Число ошибочно внесенных
2
Число невнесенных фрагментов последовательностей
18
Точность
99.77 %
Чувствительность
97.95 %
Задание 2. Создание паттерна для поиска белков подсемейства.
Контрольные белки из других таксонов
RL1_AMOA5
RL1_ACAM1
RL1_BORAP
RL1_TROWT
RL1_CHLAB
RL1_ZYMMO
Картинка с выравниванием этих белков. Паттерн выделен желтым.
Я провел поиск белков, содержащих этот паттерн в своем таксоне и нашлось 155 белков. Далее я должен был создать новый паттерн, который бы находил те же последовательности, но уже при поиске среди всех бактерий.
Первым делом, я усилил паттерн смотря на выравнивани. Но многие белки не нашлись. Пришлось добавлять в выравнивание по-одной последовательности, которые не нашлись. После того как почти все нужнуе белки начали находиться, я заметил, что количество лишних белков тоже увеличилось. Затем я начал увеличивать паттерн, прибавляя новые остатки с конца.
Мне попался какой-то сложный паттерн. Я потратил очень много времени на его создание, но все равно он не идеален.
В итоге у меня получился вот такой паттерн:
M-[SAPG]-[SKQLIVETMA]-V-[G]-[RK]-[IL]-[G]-[RK]-[VIL]-L-G-P-[RK]-[GN]-L-M-P-N-P-K-[TSA]-G-T-V-T-[MF]-[DE]-[VILT]-[EATK]-[KRN]-A-[VI]
Всего белков нужно найти - 155
Всего найдено новым паттерном - 152
Ненайденные белки:
RL1_SYNWW
RL1_STRPM
RL1_SELRU
RL1_OENOB
RL1_LEUMM
RL1_LEUCK
RL1_LACBA
RL1_HALOH
RL1_GEOSE
RL1_DESRM
RL1_CLOTE
RL1_CLOCE
RL1_CLOAB
RL1_CARHZ
Всего ненайденных - 14
Лишние белки:
RL1_STRVG
RL1_STRSF
RL1_STRAU
RL1_PROAC
RL1_KOCRD
RL1_KINRD
RL1_BIFLS
RL1_BIFLO
RL1_BIFLD
RL1_BIFAA
RL1_BIFA0
Всего лишних - 11
Отклонение: 0.0903225806451613 Скрипт, использованный для создания паттерна