1. Поиск протеома, соответствующего геномной сборке
В прошлом семестре проводилась работа с геномной сборкой GCF_000021685.1 бактерии Thermomicrobium roseum DSM 5159. Ознакомиться с ней можно по ссылке: https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/021/685/GCF_000021685.1_ASM2168v1. Идентификатор последней версии сборки в INSDC – GCA_000021685.1, в RefSeq – GCF_000021685.1.
Далее для поиска протеома в UniProt Proteomes был введен запрос "genome_assembly:GCA_000021685.1". Идентификатор найденного протеома – UP000000447, статус – Reference proteome.
2. Поиск и скачивание референсного протеома
Так как найденный протеом является референсным, дополнительный поиск референсных протеомов не производился. Для скачивания принадлежащих протеому белковых записей использовалась команда:
3. Оценка числа белков, содержащих альфа-спирали и трансмембранные участки
Для количественной оценки белков, содержащих альфа-спирали и трансмембранные участки, использовался скрипт на Python:
В результате его запуска выяснилось, что 556 записей содержат трансмембранные участки. Записей с альфа-спиралями обнаружено не было.
Противоречие в числах связано с неполнотой экспериментальных данных о вторичной структуре в базе UniProt. Результат объясняется разницей в методах аннотирования: ключ TRANSMEM проставляется автоматически, в то время как HELIX вносится в поле FT при наличии экспериментально подтвержденной 3D-структуры. Таким образом, нулевое значение не означает отсутствие спиралей в белках, а лишь указывает на то, что данные объекты еще не были изучены методами рентгеноструктурного анализа или ЯМР.
4. Оценка количества ферментов в протеоме
Для оценки числа ферментов в протеоме UP000000447 поиск расширялся от строгих критериев к более общим. Запрос по EC-номерам "proteome:UP000000447 AND ec:*" выдал 662 белка, и добавление поля каталитической активности "proteome:UP000000447 AND cc_catalytic_activity:*" почти не изменило результат (665 белков). Однако поиск еще и по названию "proteome:UP000000447 AND protein_name:*ase" резко увеличил список до 1358 белков. Это объясняется тем, что многие ферменты аннотированы по сходству и имеют понятное название, но еще не получили официальный номер в классификации. Итоговое число 1358 выглядит самым реалистичным для бактерии.