Название белка большая цепь рибулозобисфосфаткарбоксилазы
Halothiobacillus neapolitanus-бактерия в которой был обнаружен исследуемый белок.Эта бактерия облигатный хемоавтотроф, использующий для получения энергии сульфиды.В лабораторных условиях хорошо растет на тиосульфате и тетратионате.Штамм этой бактерии был выделен из древнего природного источника, богатого сульфидами[1].
Электронные микрофотографии карбоксисом H. neapolitanus (А) Электронная микрофотография тонких срезов клеток H. neapolitanus с карбоксисомами внутри. В одной из показанных ячеек стрелками выделены видимые карбоксисомы. (B) Отрицательно окрашенное изображение интактных карбоксисом, выделенных из H. neapolitanus. Длинна черты =100нм [2]
RuBisCO -фермент катализирующий реакцию фиксации углекислого газа к сахару- рибулозо-1,5-бифосфату. Этот фермент встречается и у растений и у бактерий(в частности у Halothiobacillus neapolitanus).У бактерий он входит в состав структур называемых карбоксисомами[3].
Есть информация о 2-х записяхв PDB с 3D структурами исследуемого в этом исследовании белка:
representative во всех кластерах является белок исследуемый в этом практикуме. В UniRef100 всего два белка один в swiss-prot другой в TrEMBL. В UniRef90 21 белок(на 01.09.2022) из которых в swiss-prot только 2 , в TrEMBL 15 , остальные 4 в Uniparc. В UniRef50 4 570 белков, но в swiss-prot всего 40, 4 335 в TrEMBL 9 219 и 195 в Uniparc
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&download=true&format=txt&query=%28proteome%3AUP000009102%29' -O UP000009102.swiss.gzПротеом Escherichia coli был скачен командой:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&download=true&format=txt&query=%28proteome%3AUP000000625%29' -O UP000000625.swiss.gz
Протеом Halothiobacillus neapolitanus с ID UP000009102 в базе данных swiss-prot имеет 19 белков в TrEMBL 2335 .CPD:Standard BUSCO в норме.Протеом Escherichia coli UP000000625 всего состоит из 4448 белков из которых целых 4400 находятся в swiss-prot. CPD: standart, BUSCO в норме.
Количество трансмембранных белков в протеоме Escherichia coli (UP000000625) нашел по запросу в Uniprot :
(ftlen_transmem:[* TO *]) AND (proteome:UP000000625)
Количество трансмембранных белков в протеоме Halothiobacillus neapolitanus (UP000009102) нашел по запросу в Uniprot :
(ftlen_transmem:[* TO *]) AND (proteome:UP000009102)
Результат: у Escherichia coli 957 трансмембранных белков, у Halothiobacillus neapolitanus 426
Количество ферментов в протеоме Escherichia coli (UP000000625) нашел по запросу в Uniprot :
(proteome:UP000000625) AND (ec:*)
Количество ферментов в протеоме Halothiobacillus neapolitanus (UP000009102) нашел по запросу в Uniprot :
(proteome:UP000009102) AND (ec:*)
Результат: у ecoli 1695 ферментов, у Halothiobacillus neapolitanus 638
Количество лиаз в протеоме ecoli (UP000000625) нашел по запросу в Uniprot :
(proteome:UP000000625) AND (ec:4.*)
Количество лиаз в протеоме Halothiobacillus neapolitanus (UP000009102) нашел по запросу в Uniprot :
(proteome:UP000009102) AND (ec:4.*)
Результат: у Escherichia coli 168 лиаз, у Halothiobacillus neapolitanus 65
Я скачал протеомы в формате фаста этими командами .Далее испозьзовал Скрипт для получения ответа на вопрос:
По результатам его работы я получил что в обоих протеомах нет белка который начинается не с метеонина.
Для получения самых распространенных слов я воспользовался командой:
zgrep ^KW Proteome_ID.swiss.gz |cut -d ' ' -f4- | tr -d '.'|tr '\n' ';' |tr ';' '\n' | cut -d '{' -f 1 |cut -d '}' -f 2 |sort |uniq -c |sort -rn > topProteome_ID
В итоге я получил 2 файла с топ 10 слов для протеомов: ecoli (UP000000625) и Halothiobacillus neapolitanus (UP000009102)
Первое место в обоих протеомах занимает Referenceproteome, что ожидаемо т.к. они из референсных протеомов.Далее у Escherichia coli второе место занимает 3D-structure, что опять же не увдивительно, ведь эта бактерия модельный объкт, ее активно изучили.А вот 3D-structure у Halothiobacillus neapolitanus в топ 10 не вошел.Что говорит о не слишком высокой степени изучения этой бактерии.