Практикум 8
Задание 1. Поиск протеома, соответствующего геномной сборке
-
Ссылка на геномную сборку:
- Идентификатор последней версии INSDC: GCA_015239775.1
- Идентификатор последней версии RefSeq: GCF_015239775.1
Был введен поисковый запрос в Uniprot Proteomes: (genome_assembly: GCA_015239775.1) в итоге не было получено ни одного протеома.
Задание 2. Поиск и скачивание референсного протеома
В поисковую строку Uniprot Taxonomy я ввела название своей бактерии Trichlorobacter lovleyi и получила две записи. Перешла на страницу, где была метка о наличии протеомов (Tax_ID: 398767). Итоговый запрос выглядел так: (taxonomy_id:398767) AND (proteome_type:1).
Скачивание выполнялось следующей командой:
curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000002420)' > UP000002420.swiss.gz
Задание 3. Оценка числа белков, содержащих альфа-спирали
Для сравнения оценок количества белков с трансмембранным доменом и с альфа-спиралями был использован скрипт python. В итоге были получены следующииеп результаты:
- записи содержащие HELIX: 0
- записи содержащие TRANSMEM: 682
Полученные результаты противоречат тому, что большая часть трансмембранных участков сформирована альфа-спиралями.
Такие несоответствия могут происходить по следующим причиинам:
- 1. Ключ TRANSMEM более важен для понимания локализации и функции белка , чем ключ HELIX просто указывающий на вторичную структуру цепи. Поэтому TRANSMEM является более важной деталью в аннотации, следовательно на его наличие белки проверяют более тщательно
- 2. Swiss-Prot проверяется вручную, следовательно сначала добавляются более важные детали в аннотацию, а менее важные особенности структуры могут не добавить вовсе.
Задание 4. Оценка количества ферментов в протеоме
Чтобы оценить количество белков с ферметативной активностью были произведены следующие поисковые запросы в Uniprot:
-
(proteome:UP000002420) AND (EC:*)
- Было получено 835 записей
- (proteome:UP000002420) AND (protein_name:*ase)
- Было получено 1586 записей
Более точной является оценка по второму запросу потому что EC могут присвоить не всем белкам обладающим каталитической активностью (например у плохоизученных белков EC может отсуствовать. Либо же если белок открыт недавно и ему не успели присвоить EC). А окончание -ase присутствует у некоторых белков, не являющихся ферментами, следовательно оценка по второму запросу тоже неточная.