Для поиска индификатора геномной сборки в INSDC воспользуемся выдачей скрипта из pr5 семестра 1. У меня это GCF_002104335. В Datasets Genome есть лишь одна запись с моей бактерией, датируемая 2017 годом. В Submitted GenBank assembly нужным мне индификатором является GCA_002104335. По запросу (genome_assembly:GCA_002104335.1) нашла соответствующий протеом в Uniprot. Ptoteom ID: UP000192902, Status: other (тоесть обычный, неизбыточный). Для поиска референсного протеома сначала воспользовалась запросом (taxonomy_id:1121267) AND (proteome_type:1). Результатов не нашлось, поэтому начинаю искать в роду Campylobacter по запросу (taxonomy_id:194) AND (proteome_type:1). Выдалось 20 результов, я выбрала Campylobacter jejuni subsp.(UP000000799) Эта бактерия довольно хорошо изучена, ее статус референсный. Она также патогенна и термофильна. Эти факты вероятно можно будет использовать при дальнейшем анализе протеома.
На этом этапе я столкнулась с проблемой(неудивительно). При поиске ферментов, по "CATALYTIC ACTIVITY:" и по "EC=" выдаются разные ответы. Возможно есть белки которые имеют классификацию ферментов, но при этом не имеют каталитической активности. Если использовать KW, то можно столкнуться с проблемой дублирования информации в строках (например "Transmembrane" и "Transmembrane helix"). Будем исходить из того, что если белок имеет классификацию фермента, то является ферментом. В качестве примера для расширенного поиска поставлю в отчете EC, чтобы было заметно насколько показатели различны. Еще можно сделать конвеер с "enzyme", но результат будет мал.
581 результат
534 результата (p.s. между CC и -!- три пробела в командной строке)
7 результатов
Доля, относительно второго, 33%
Для третьего 0,43%
Результат второго вывода кажется мне наиболее логичным, бактерия - патогенная, доля ферментов не должна быть низкой.
код term2/pr8/kw_count2.py
C.jenuni | Result |
---|---|
Reference proteome | 1095 | Membrane | 324 | Transmembrane | 316 | Transmembrane helix | 307 | Metal-binding | 140 | Cell membrane | 134 | Transport | 128 | Transferase | 124 | Signal | 115 | Hydrolase | 97 |
У бактерии хорошо развита мембранная система белков. Слово 'Metal-binding' частотно. Возможно происходит много ферментативных рекций, где металлы играют ключевую роль в катализе. Меня немного удивило то, что у этой бактерии довольно много трансфераз, но слова 'ATP-binding' нет, ибо кофакторы трансфераз это часто АТФ и и другие нуклеозидтрифосфаты. Из таблицы можно также заметить, что у C.jenuni в топ 10 слов входит 'Hydrolase'. Гидролазы могут взаимодействовать с иммунной системой хозяина, помогая бактерии избегать распознавания и атаки иммунными клетками. Хочу добавить, что при выводе, я ожидала увидеть у патогенной бактерии '3D-structure' и 'Direct protein sequencing'. Эти слова свидетельствуют о хорошей изученности и аннотированности.(поэтому мне захотелось посмотреть колличество статей в Pubmed)
import gzip i = gzip.open("UP000000799.swiss.gz", "rt") o = [] v = [] w = [] for l in i: if l.find('KW') == 0: if l.find("{") != -1: q=[] for el in l: if el != '{': q.append(el) else: break q = ''.join(q[5:]) if q.find('}') != -1: q = q.split() q = ''.join(q[1:]) q = q.strip() o.append(q) k = list(set(o)) for n in range(10): m = max(k, key=o.count) print(m + ' ' + str(o.count(m)) )
130 результатов
Ого, респект ей.