Практикум 8. UniProt Proteomes, EMBOSS
Поиск протеома
Я искала протеом UniProt, который соотвветствует геномной сборке Hydrogenophilus thermoluteolus, с которой я работала в прошлом семестре. Для этого на сайте NCBI, используя идентификатор сборки GCF_003574215, я нашла в поле "Submitted GenBank assembly" идентификатор сборки INSDC (GCA_003574215.1). В UniProt Proteomes с помощью расширенного поиска (запрос Genome Assembly: "GCA_003574215.1") был найден интересующий меня протеом (поиск выдал 1 результат, Proteome ID: UP000262004, статус: референсный протеом).
Найденный протеом является референсным, поэтому можно сразу скачивать его. Для этого я использовала команду: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28proteome%3AUP000262004%29' -O UP000262004.swiss.gz
Число белков, содержащих альфа-спирали
Я изучила таблицу локальных особенностей записей UniProtKB, с ее помощью я смогла найти ключ, который соответствует альфа-спиралям в белке или же трансмембранным участкам, которые чаще всего являются альфа-спиралями. Это HELIX и TRANSMEM соответственно, находящиеся в поле FT. Для подсчета количества белков с альфа-спиралями был написан код на python, он приведен ниже.
import gzip
input_file = gzip.open("UP000262004.swiss.gz", "rt")
d = {}
a = ""
for line in input_file:
id = line.strip()
if not line.startswith('ID '):
a += line.strip()
else:
d[id] = a
a = ""
d[id]=a
tr, hel = 0, 0
for value in d.values():
if 'FT' in value and ' TRANSMEM ' in value:
tr += 1
elif 'FT' in value and ' HELIX ' in value:
hel += 1
print(f'Количество белков, содержащих трансмембранные участки: {tr}')
print(f'Количество белков, содержащих альфа-спирали: {hel}')
input_file.close()
Количество белков, содержащих трансмембранные участки: 388
Количество белков, содержащих альфа-спирали: 0
Предположительно, количество белков с альфа-спиралями равно нулю из-за того, что нет данных о пространственной структуре, полученных экспериментально, а только предсказанные автоматически. Но можно считать, что у 388 белков в 3D структуре содержатся альфа-спирали, так как трансмембранные участки практически всегда ими являются.
Поисковые запросы
Определить количество белков, обладающих какой-либо ферментативной активностью можно двумя способами.
1. Через классификацию ферментов
В этом способе нам в качестве результата будут выданы белки, которые являются ферментами, подчиняются их классификации. Для этого напишем в поле function -> Enzyme_classification_[EC] *, которая обозначает наличие любого значения.
Запрос: (proteome:UP000262004) AND (ec:*)
Результат: 628 белков
2. Через наличие каталитической активности
У этих белков каталитическая активность есть, для них определена катализируемая реакция. Эти белки ищутся с использованием function -> Catalytic_activity.
Запрос: (proteome:UP000262004) AND (cc_catalytic_activity:*)
Результат: 582 белка
Кроме того, можно посмотреть на количество белков, удовлетворяющих обоим условиям. Их оказалось 577, то есть не все белки с определенной каталитической активностью имеют классификацию как ферменты.