1. Описание функции белка YFIT_BACSU с помощьюаннотации Gene Ontology

  Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
(краткое описание, близкое к тексту определения термина(ов) GO
Где? cellular Component  Цитоплазма 
Зачем, для чего? biological Process     
Молекулярный механизм и специфичность molecular Function  1. Гидролазная активность
2. Связывание с ионом металла 

2. Описание трех терминов GO, ассоциированных с белком YFIT_BACSU

GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
GO:0016787  Нет  is_a:
Молекулярная функция(GO:0003674)
Саталитическая активность(GO:0003824) 
is_a:
бета-аланил-дофамин гидролазная активность(GO:0003832)
бета-гистамин-дофамин гидролазная активность(GO:0031964) и пр.  
GO:0046872  Связывание тяжелых металлов
Связывание металлов 
is_a:
Молекулярная функция(GO:0003674)
Связывание(GO:0005488)
Связывание ионов(GO:0043167)
Связывание катионов(GO:0043169) 
is_a:
Связывание ионов щелочных металлов(GO:0031420)
Связывание ионов кальция(GO:0005509) и пр. 
GO:0005737  Нет  is_part_of:
Клеточный компонент(GO:0005575)
Клетка(GO:0005623)
Часть клетки(GO:0044464)
Внутриклеточное(GO:0005622)
is_a:
Внутриклеточная часть(GO:0044424) 
is_part_of:
Составляющая цитоплазмы(GO:0044444)
is_a:
Цитоплазма полюса (вегетативного, анимального)(GO:0045495)
Саркоплазма(GO:0016528)  
GO:0016787
GO:0005737


GO:0046872

3. Описание протеома бактерии, полный геном которой секвинирован и аннотирован, используя термины GO

Выбрана бактерия: Rickettsia typhi str. Wilmington
Число белков: 837
Использовав SRS для поиска по базе данных UniProt, получил число белков: 945
И уже это различие в числе белков протеома вызывает недоумение. Это можно объяснить тем, что UniProtKB состоит не только из UniProtKB/Swiss-Prot, но и UniProtKB/TrEMBL, который содержит неаннотированные последовательности.
Термины GO составляют 75,1% (710 белков)
Для анализа выдачи SRS написал сначала использовал команды bash: grep и пр.
Как видно, термины из словаря Function встречаются чаще всего, и это понятно, так как, вообще говоря, число функций (катализируемых реакций и пр.) превосходит число клеточных компонентов и процессов..

Далее, чтобы определить самые встречающиеся термины, написал Python script
GO:0005524	F:ATP binding			152
GO:0005737	C:cytoplasm			145
GO:0016021	C:integral to membrane		127
GO:0005886	C:plasma membrane		96
GO:0006412	P:translation			61
Используемость источников также легко оценивается скриптом:
InterPro		1169
UniProtKB-KW		867
UniProtKB-SubCell	219
EC			187
HAMAP			13
UniProtKB		4

4. Получение выборки последовательностей белков с заданной функцией

1. Пшеница - Wheat - Triticum
genus - род
NCBI_TaxID - 4564
Число сортов и видов - 82
2. Карбоксилирование - Carboxylation
GO:0019464: glycine decarboxylation via glycine cleavage system
Dictionary - process
Но после долгих испытаний со всеми GO терминами, относящимися к карбоксилированию, я от SRS не получил ничего, использовав и имя организма, и таксон, и вид, и ID. Отсюда делую вывод, что просто нет таких белков.
Но, чтобы показать свое умение пользоваться SRS, я изменил род на Drosophila и нашел для вышеприведенного термина 13 последовательностей.
([uniprot-Organism:Drosophila*] > ([uniprot-DbName:GO*] & [uniprot-DBxref:GO:0019464*]))
fasta