Практикум 8
Задание 1. Поиск протеома, соответствующего геномной сборке
- Ссылка на геномную сборку: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_015239775.1/
- Идентификатор последней версии INSDC: GCA_015239775.1
- Идентификатор последней версии RefSeq: GCF_015239775.1
Был введен поисковый запрос в Uniprot Proteomes: (genome_assembly: GCA_015239775.1) в итоге не было получено ни одного протеома.
Задание 2. Поиск и скачивание референсного протеома
В поисковую строку Uniprot Taxonomy я ввела название своей бактерии Trichlorobacter lovleyi и получила два протеома. Перешла на страницу, где была метка о референсном протеоме. Итоговый запрос выглядел так: (taxonomy_id:398767) AND (proteome_type:1).
Задание 3. Оценка числа белков, содержащих альфа-спирали
Для сравнения оценок количества белков с трансмембранным доменом и с альфа-спиралями были написаны конвейеры в bash.
- Конвейер для подсчета белков с альфа-спиралями: zgrep -i -E '^FT.*helix|//' UP000002420.swiss.gz | grep -B1000 -A1000 -v -i '^FT.*helix' | tr -d '//' | wc -l
- Было получено 504 записи
- Конвейер для подсчета белков с трансмембранным доменом: zgrep -i -E '^FT.*transmem|//' UP000002420.swiss.gz | grep -B1000 -A1000 -v -i '^FT.*transmem' | tr -d '//' | wc -l
- было получено 595 записей
Значения двух конвееров достаточно пожожи. Можно заметить, что записей с трансмембранным доменом больше, что в целом имеет смысл, поскольку не все трансмембранные содержат альфа-спирали.
Задание 4. Оценка количества ферментов в протеоме
Чтобы оценить количество белков с ферметативной активностью были произведены следующие поисковые запросы в Uniprot:
-
(proteome:UP000002420) AND (EC:*)
- Было получено 835 записей
- (proteome:UP000002420) AND (protein_name:*ase)
- Было получено 1586 записей
Оценка по первому запросу является более точной, так как ЕС метка присваивается белкам с доказанной ферментативной активностью, а “ase” может присутствовать в названии белков, не являющихся ферментами. Поэтому во втором запросе получено существенно больше белков.